Getty Images

Cosmos : Nvidia parie sur l’application de l’IA dans le monde physique

Avec ses modèles de monde Cosmos, le spécialiste fabless des GPU et de l’IA entend favoriser le développement de systèmes robotiques capables de planifier et d’exécuter des tâches de manière autonome.

Alors que les discussions sur l’IA agentique et la GenAI vont bon train, Nvidia et d’autres fournisseurs informatiques lancent également des technologies qui soutiennent l’écosystème de l’IA appliquée au monde physique.

Lundi, Nvidia a présenté de nouveaux SDK Omniverse pour la création et le déploiement d’applications industrielles d’IA et de robotique, ainsi que des « world models », ou modèles de monde en français.

Omniverse et les modèles de monde

Les SDK Omniverse permettent aux ingénieurs spécialisés de simuler le comportement des robots sur différentes plateformes telles que Universal Scene Description et MuJoCo, un moteur physique utilisé en robotique, en biomécanique et en machine learning.

Les bibliothèques Omniverse NuRec et les modèles d’IA introduisent une nouvelle technique de rendu qui permet aux développeurs de capturer, reconstruire et simuler le monde réel à l’aide de données de capteurs.

Nvidia Isaac Sim 5.0 et Nvidia Isaac Lab 2.2 sont des simulations de robots sources désormais disponibles sur GitHub. Isaac Sim comprend des schémas de capteurs que les développeurs de robots peuvent utiliser pour combler le fossé entre la simulation et la réalité.

Nvidia a également révélé que Cosmos Transfer-2, un modèle de monde censé simplifier la génération de données synthétiques photoréalistes, sera bientôt disponible.

En outre, le fournisseur a dévoilé une version allégée de Cosmos Transfer, qui ne nécessite qu’une seule étape de distillation au lieu de 70, afin que les développeurs puissent exécuter le modèle sur les serveurs Nvidia RTX Pro.

Il a aussi introduit Cosmos Reason, un modèle vision-langage (Vision Language Model ou VLM) de raisonnement ouvert et personnalisable de 7 milliards de paramètres. Ce VLM est capable de décrire et de détailler des situations dépeintes dans une image ou une vidéo.

Le modèle ouvert est destiné à des applications telles que la curation et l’annotation de données, la planification et le raisonnement robotiques, et les agents d’IA d’analyse vidéo.

« L’idée des modèles de monde et de toutes les technologies associées… représente une avancée considérable dans le domaine de l’IA », déclare Tuong Huy Nguyen, analyste chez Gartner. « Il ne s’agit pas encore d’un concept abouti ou définitif. Nous parlons ici de différentes techniques et architectures en cours de développement afin que l’IA puisse mieux comprendre, anticiper et réagir au monde qui l’entoure… Chacune d’entre elles constitue un pas dans cette direction ».

« Nous parlons ici de différentes techniques et architectures en cours de développement afin que l’IA puisse mieux comprendre, anticiper et réagir au monde qui l’entoure… Chacune d’entre elles constitue un pas dans cette direction ».
Tuong Huy NguyenAnalyste, Gartner

Les modèles de monde tels que ceux publiés par Nvidia visent à aider les robots à mieux interagir avec le monde, ajoute M. Nguyen.

Ils permettent aux robots de comprendre la gravité, la masse, la vitesse, la lumière, le son et les objets.

En réalité, le potentiel de cette technologie ne s’arrête pas à la robotique. Les avionneurs cherchent à sécuriser les atterrissages en les rendant plus autonomes. En 2023, des chercheurs d’Airbus, de Scalian, d’Onera et de l’IRT Saint-Exupéry entraînaient des modèles de computer vision à partir de véritables images et d’un mélange d’images synthétiques – issues de simulateurs, de jeu vidéo ou de systèmes comme Google Earth Studio pour détecter précisément des pistes d’atterrissage. Or, ces outils peinent encore à reproduire toutes les conditions météorologiques et physiques, surtout les cas limites qui pourraient déjouer le fonctionnement du système semi-autonome. C’est ce qu’ont tenté de faire des chercheurs d’Honeywell en 2024, en modifiant un modèle vision-langage afin de générer des données synthétiques correspondant à ces scénarios difficiles ou catastrophes.

Un écosystème émergent

Les chercheurs Nvidia ont utilisé une technique similaire à celle d’Honeywell pour entraîner Cosmos-Transfer1. C’est un modèle de diffusion DiT (Diffusion Transformer) conditionné par un réseau de neurones appelé ControlNet dont le rôle est de « contrôler » la configuration spatiotemporelle du contenu à générer.

Nvidia n’est pas le seul fournisseur présent sur ce marché. Mardi, l’institut de recherche en IA AI2 (Allen Institute for AI) a lancé une nouvelle catégorie de modèles appelés « Action Reasoning Models » (ARM) afin d’aider les robots et les machines à surmonter certaines des difficultés et limites liées à l’utilisation exclusive de LLM ou de VLM. Le premier ARM s’appelle MolmoAct et s’appuie sur Molmo, une famille de modèles vision-langage open weight développée par l’institut en septembre 2024. Selon Ai2, MolmoAct comble le fossé entre le langage et l’action. Les modèles aident les robots ou les machines à « raisonner dans l’espace ».

Plus précisément, à partir de prompt en langage naturel, les modèles prédisent trois chaînes de pensée structurées : des tokens de perception de la profondeur qui détecte et reconstruit l’environnement 3D, des traces de raisonnement visuelles afin de planifier la trajectoire du robot et des tokens d’actions pour générer ses commandes de contrôle.

« Chaque chaîne de raisonnement explicable peut être décodée indépendamment, ce qui permet d’obtenir une carte de profondeur de la scène, une superposition de trajectoires 2D sur le plan de l’image et les actions exécutées dans le monde physique, fournissant ainsi un raisonnement explicite et spatialement ancré à chaque étape », assurent les chercheurs de l’Allen Institute for AI.

En juin, le laboratoire FAIR de Meta lançait V-JEPA 2, un modèle de vision langage (encodeur-prédicteur accolé à un LLM servant de « backbone », ici Qwen2-7B-Instruct) entraîné pour « comprendre, prédire et planifier dans le monde physique » à partir d’un million d’heures de vidéo extraites depuis le Web et 62 heures de vidéos non labélisées de robots manipulant des objets.

Les chercheurs du FAIR, sous la supervision de Yann Le Cun, directeur scientifique de l’IA chez Meta, ont mis au point une architecture prédictive d’enchâssement joint (Joint Embedding Predictive Architecture, d’où l’appellation JEPA).

Il s’agit d’entraîner l’encodeur et le prédicteur à l’aide d’une technique d’apprentissage autosupervisée à faire des prédictions dans « un espace de représentation appris ».

« L’idée est d’entraîner un système à apprendre une représentation abstraite du monde physique dans laquelle la plupart des détails qui ne sont pas prévisibles sont éliminés », résumait Yann Le Cun en février, lors d’un événement fêtant les dix ans d’existence du laboratoire à Paris. « Je peux donc savoir qu’il y a une plante ici, mais je n’ai pas besoin de connaître le détail précis de la forme de chaque feuille ». En clair, le modèle n’est pas capable d’effectuer une prédiction à partir d’éléments qu’il ne « voit » pas.

Nvidia a utilisé la même architecture (encodeur+prédicteur+LLM) pour constituer Cosmos Reason. Le géant fabless a inclus dans ses données d’entraînement une ontologie complexe décrivant les bases de la physique et du temps ayant servi à affiner les modèles de récompenses qui ont influé sur la formation des poids de Cosmos Reason. L’ontologie est aussi utilisée dans les annotations du corpus de vidéo.

« La plupart des connaissances humaines, tout ce que nous apprenons la première année après notre naissance, n’ont fondamentalement rien à voir avec le langage ».
Yann Le CunDirecteur Scientifique de l'IA, Meta

Pour Yann Le Cun, les LLM et le langage ne sont pas la clé de ce défi. « La plupart des connaissances humaines, tout ce que nous apprenons la première année après notre naissance, n’ont fondamentalement rien à voir avec le langage », affirme-t-il. « Et tout ce que les animaux apprennent, non plus. […] Quel type d’intelligence est capable de faire cela ? C’est ce que nous essayons de reproduire ».

Le défi de l’IA dans le monde physique

Des modèles spécifiques, tels que ceux fournis par Nvidia, Ai2 et Meta, sont nécessaires, car l’IA dans le monde physique demeure complexe.

« Les technologies d'IA physique ne sont pas encore arrivées à maturité, mais nous pouvons constater que le développement logiciel dans ce domaine a évolué rapidement au cours des deux ou trois dernières années ».
Ray WangAnalyste, Futurum Group

« Le type de logiciel qui alimente les robots humanoïdes est très complexe », avance Ray Wang, analyste chez Futurum Group. « Il faut un modèle spécialement conçu pour les charges de travail associées. »

Nvidia ne se contente pas de fournir aux développeurs la technologie nécessaire pour créer des applications d’IA dans le monde physique, mais amplifie également l’écosystème associé, comprend M. Wang.

Selon l’analyste, les technologies de Nvidia sont fiables. Les fondations d’Omniverse ont été éprouvées par les fabricants et équipementiers de voitures. En revanche, il reste encore beaucoup à faire pour rendre les technologies d’IA appliquée au monde physique commercialement viables pour les clients.

« Elles ne sont pas encore arrivées à maturité, mais nous pouvons constater que le développement logiciel dans ce domaine a évolué rapidement au cours des deux ou trois dernières années », remarque-t-il.

« Ces systèmes ont acquis un certain degré de bon sens, un peu comme les humains et les animaux, mais c’est un projet de recherche à long terme ».
Yann Le CunDirecteur Scientifique de l'IA, Meta

Dans le même ordre d’idées, Ansys, un spécialiste de la simulation 3D appartenant à Synopsys, offrira l’accès à la technologie Nvidia Omniverse dans son logiciel. L’objectif du géant fabless est d’anticiper la prochaine vague technologique lui permettant de maintenir sa forte croissance.

Selon le directeur scientifique de l’IA chez Meta, il est encore tôt pour que des robots doués « de bon sens » s’imposent dans les usines et au quotidien.

« Nous avons des systèmes qui sont entraînés pour faire essentiellement de la prédiction vidéo », indiquait pour sa part Yann Le Cun en février dernier. « Et ces systèmes ont acquis un certain degré de bon sens, un peu comme les humains et les animaux, mais c’est un projet de recherche à long terme ».

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM