Ico Maker - stock.adobe.com

CES 2026 : avec Alpamayo-R1, Nvidia veut apprendre aux voitures autonomes à raisonner

Lors de la grand-messe de la technologie grand public, le géant fabless a présenté Alpamayo-R1, un modèle de langage-vision-raisonnement open weight destiné à améliorer le comportement des systèmes de conduite autonome dans les situations complexes. Une approche qui attire déjà certains grands noms de l’automobile.

Alors que les équipementiers et les éditeurs de logiciels misent sur l’intégration des agents IA et des outils de productivité (dont Teams) dans les cockpits automobiles, au CES 2026, Nvidia a présenté une famille de modèle de langage-vision open weight et d’outils spécifique à un domaine.

Alpamayo s’inscrit dans une suite de travaux récents dans le monde de la recherche consistant à appliquer l’usage des modèles de langage-vision (VLM) et de raisonnement à la conduite autonome. Nvidia les appelle « vision language action models », ou VLA.

Les cas limites de la conduite autonome

Il s’agit de faire en sorte que les systèmes puissent gérer les situations les plus complexes, encore mal appréhendés par les véhicules équipés sur la route. Par exemple, à San Francisco, une panne de courant a paralysé les robots taxis Waymo le 22 décembre. L’absence de feux de signalisation a causé la déroute des taxis autonomes, provoquant des bouchons et quelques frayeurs aux automobilistes.

« [L'architecture Alpamayo-R1 est capable d’interpréter en entrée] des flux de plusieurs caméras, du texte correspondant aux commandes de l’utilisateur et des instructions de haut niveau. »
Chercheurs de Nvidia

Ce type de scénarios complexes ou limites, Nvidia les appelle la longue « traîne ». Puisque les architectures actuelles de véhicules autonomes ont séparé la perception de la planification, les systèmes rencontreraient des difficultés à s’adapter dans des environnements inconnus ou changeants.

Entraîner un VLM pour interpréter les flux vidéo d’un véhicule autonome et prendre des actions en temps réel n’est, a priori, pas une mince affaire. Par défaut, ces modèles sont capables d’interpréter une image à la fois. C’est justement tout l’intérêt d’Alpamayo-R1. Cette architecture étend les précédents travaux des chercheurs de Nvidia avec Alpamayo AV en mars dernier. Elle est capable d’interpréter en entrée « des flux de plusieurs caméras, du texte correspondant aux commandes de l’utilisateur et des instructions de haut niveau », indiquent les chercheurs de Nvidia. Ces images et ses éléments textuels visent à reproduire les données historiques d’ego-motion. C’est-à-dire la perception du système de conduite autonome de sa position et de ses mouvements à un instant donné.

Tokenisation multimodale et chaîne « de causalité structurée », les deux atouts d’Alpamayo-R1

Sous le capot d’Alpamayo-R1 se « cache » Cosmos Reason. C’est un VLM entraîné à l’aide, entre autres, d’une ontologie sous forme de question-réponse incluant des images (3,7 millions d’échantillons) décrivant les grands préceptes de la physique et du fonctionnement du temps. Le modèle qui en résulte est capable de générer des prédictions de trajectoires, des « méta-actions » et des traces de raisonnement.

Les chercheurs de Nvidia ont réentraîné le modèle à partir de 24 700 vidéos de conduite annotés par DeepSeek R1. Au total, le groupe dirigé par Jensen Huang a constitué un jeu de données internes incluant 80 000 heures de conduite, dans 1 700 villes de 25 pays différents, aux États-Unis et en Union européenne. Le modèle de raisonnement chinois est utilisé pour décrire les scènes, déterminer la difficulté de la conduite, tout en fournissant les traces de son raisonnement.

Au moment du fine-tuning supervisé, Alpamayo-R1 a appris 100 000 échantillons supplémentaires consacrés au domaine physique de la robotique, de la conduite autonome, de logistique, du retail, du manufacturing, de la santé et de la ville intelligente. Il s’agissait là d’affûter les connaissances générales du modèle. Les chercheurs de Nvidia ont par ailleurs établi une double méthode d’annotation pour les données spécifiques à la conduite autonome. Les informations météo, de régulation du trafic, des actions possibles, des manœuvres et de ce qu’elles impliquent sont décrites par des humains. Qwen3VL est en revanche mis à contribution pour « encoder » les positions longitudinales et latérales, la position par rapport aux lignes blanches sur la route et les informations sur la vélocité.

Les chercheurs de Nvidia ont construit un framework de labélisation visant à créer une « chaîne structurée de causalité » afin de permettre aux modèles utilisés lors de l’annotation de décrire précisément les actions et en déduire des recommandations (ajuster la vitesse, freiner, tourner, s’arrêter, rester dans la ligne, annuler une manœuvre, etc.). Ces « commentaires » sont revus par des humains. Nvidia semble avoir à la fois fait appel à des externes et à une équipe dédiée spécialiste de cette procédure.

Cosmos Reason n’est pas, par défaut, capable, d’interpréter plusieurs flux vidéo. Et les chercheurs de Nvidia voulaient que cette approche soit modulaire, compatible avec d’autres modèles de diffusion et de raisonnement. Le gros du travail a consisté à développer plusieurs tokenizers spécialisés.

Par défaut, un tokenizer est utilisé comme un moyen d’encoder une information textuelle et visuelle afin de la rendre compréhensible par le modèle de vision langage. Ici, Nvidia utilise soit un tokenizer pour traiter individuellement les images, soit deux tokenizers multicaméras capables de traiter simultanément les flux de 6 à 10 caméras. Alpamayo-R1 peut ainsi traiter des données unidimensionnelles, bidimensionnelles et tridimensionnelles. Les chercheurs ont aussi fourni des efforts de compression en associant des observations issues de plusieurs caméras et des éléments temporels. Cela permettrait de réduire jusqu’à 20 fois la taille des séquences en entrée.

En sortie, il fallait gérer correctement la prévision de la prochaine action du système autonome. Au lieu de s’appuyer sur des coordonnées de destination sur un axe X-Y, les chercheurs ont plutôt encodé des commandes de contrôle (64 au total) afin d’agir sur la vitesse et les déplacements du véhicule. Le tout s’appuie sur l’incorporation d’une équation physique dans un token spécial utilisé à l’entraînement, puis interprété lors de l’inférence par une couche de réseau de neurones « experte » en action.

Plus particulièrement, Alpamayo-R1 s’appuie sur deux secondes de vidéo pour prédire les actions à prendre au cours des six secondes suivantes. Ce dispositif vise à réduire les éventuelles confusions créées par les informations déjà encodées dans la fenêtre de contexte du modèle. Alpamayo-R1 dispose d’un temps de réaction de 99 millisecondes avec un RTX 6000 Pro Blackwell, ce qui serait dans les standards actuels de l’industrie.

Les explications plus précises du raisonnement sont obtenues après une phase de fine-tuning supervisé. Pour en limiter les biais et les hallucinations, une phase d’apprentissage par renforcement est appliquée. Elle découle d’un système de récompenses à trois composantes : la qualité du raisonnement (évaluée par DeepSeek R1 comme LLM juge), la cohérence entre raisonnement et action, et la qualité des trajectoires. Pour ce faire, Nvidia a adopté la technique GRPO (système de récompenses dictées par des règles), développée par DeepSeek.

Le secteur automobile très attentif à la proposition de Nvidia

Bien que plus pertinent que les VLM du marché pour accomplir la même tâche, Alpamayo-R1 ne doit pas diriger lui-même un véhicule équipé. Nvidia le destine aux chercheurs spécialisés dans la conduite autonome, soit pour annoter des vidéos de conduite, soit pour entraîner (« distiller ») leur propre VLA consacré à la conduite autonome.

Pour aider les constructeurs à adopter ce paradigme, le fournisseur adopte une stratégie qu’il a éprouvée. Au total, Alpamayo-R1 est doté de 10 milliards de paramètres (dont 2,3 milliards consacrés à l’expert « action »). Il nécessite a minima 24 Go de VRAM, ce qui permet de le tester sur un GPU « prosumer » comme le RTX 4090 ou 5090 (prix moyen sur le marché : 3 000 euros), mais aussi sur les cartes graphiques professionnelles comme la RTX A5000 (environ 2 500 euros).

En outre, Nvidia a ouvert AlpaSim (sous licence Apache 2.0), un framework pour simuler des conditions de trafic, des données de capteurs réalistes et le comportement du véhicule dans une boucle fermée. À cela, il faut ajouter un échantillon du jeu de données évoqué plus haut rassemblant 1 700 heures de conduite.

L’annonce faite au CES 2026 est soutenue par plusieurs acteurs du secteur automobile, dont Lucid, Jaguar Land Rover, Uber et Berkeley DeepDrive. Sophie Foucques, CEO des flottes connectées chez Michelin, voit là une « avancée majeure ».

« Il s’agit d’une étape importante pour l’industrie du véhicule autonome, qui marque le passage de systèmes basés sur des règles à des modèles de fondation “data-driven” », commente Lavanya, Suresh Kannan, ingénieure logiciel ADAS chez Aptiv.

« Cela reflète bon nombre des défis auxquels nous sommes confrontés aujourd’hui dans les opérations de transport [...]. ».
Saeed MaadiEx-data scientist du transport, Urban Big Data Center

« Ce qui me frappe, c’est l’ouverture du flux de travail de bout en bout : la combinaison de modèles fondés sur le raisonnement, d’ensembles de données d’IA physique et de simulation en boucle fermée pour tester les décisions avant leur mise en œuvre », souligne pour sa part Saeed Maadi, ex-data scientist du transport chez Urban Big Data Center. « Cela reflète bon nombre des défis auxquels nous sommes confrontés aujourd’hui dans les opérations de transport, où l’explicabilité, la robustesse et la performance au niveau du système comptent autant que la précision brute ».

En grand communicant qu’il est, Jensen Huang, CEO de Nvidia, voit là « le moment ChatGPT pour l’IA physique ». En sus d’Alpamayo, le groupe a profité de la convention grand public pour présenter les évolutions de la plateforme de conduite autonome Drive Hyperion choisie par Mercedes-Benz, la version 2 de Cosmos Reason, deux modèles Cosmos (Transfer et Predict 2.5) capables de générer des vidéos synthétiques pour la simulation (automobile, entre autres) ou encore Isaac GROOT, un VLA consacré à la robotique humanoïde.

De leur côté, les chercheurs du groupe derrière Alpamayo-R1 sont plus prudents. Ils évoquent la nécessité d’étendre les évaluations avec des jeux de données tierces et des benchmarks du marché. Ils veulent aussi décomposer plus finement les actions complexes, implémenter un « raisonnement adaptatif » qui ne s’active que dans les situations critiques, intégrer des tâches auxiliaires, comme l’estimation de la profondeur et l’incorporation de l’approche dans un véritable modèle monde, afin de poursuivre les efforts de simulation.

Pour approfondir sur IA appliquée, GenAI, IA infusée