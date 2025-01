Un supercalculateur dans un format NUC ou Mac Mini. Voilà à peu près comment l’on pourrait définir le nouveau projet Digits que Nvidia a dévoilé cette semaine à Las Vegas. La petite machine, dont le design doré n’est pas définitif, embarque un processeur ARM Grace, un GPU Blackwell, jusqu’à 128 Go de RAM partagés (« unifiés ») entre les deux, un SSD NVMe de 4 To et un Linux personnalisé appelé DGX OS.

Le constructeur parle d’un tarif à 3 000 dollars, de la possibilité d’exécuter localement des LLM avec 200 milliards de paramètres et d’une mise sur le marché en mai prochain.

Exécuter localement des modèles d’IA présente plusieurs avantages, à commencer par le fait de ne pas payer un service en ligne à chaque fois que l’on soumet un prompt. Ou, pour beaucoup plus cher, quand une entreprise recalcule la personnalisation d’un modèle à partir des usages et des données qui lui sont spécifiques. Un autre point intéressant est de ne pas faire sortir des murs d’une entreprise les données sensibles que l’on soumet à une IA.

Dell, Lenovo ou encore HPE proposent ainsi des configurations serveur qui permettent d’utiliser l’IA localement, à des tarifs qui dépassent souvent les 100 000 euros.

Sur ce principe, le format d’une machine de bureau limite cependant l’IA à un seul utilisateur. S’il reste possible d’exposer l’IA sur le réseau via un service accessible à d’autres collaborateurs ou à des applications tierces, les capacités restreintes de la machine empêchent en pratique de multiplier les connexions simultanées. Nvidia présente sa machine Digits comme une station personnelle pour les développeurs, et promeut l’idée que les applications créées dessus ont vocation à être utilisées sur des serveurs ou en cloud.

Nvidia n’est pas le premier à rendre possible l’exécution de modèles d’IA sur une machine de bureau. Des outils, souvent Open source, permettent déjà de le faire sur des PC richement équipés en GPU, ou (cela semble être le choix le plus populaire) sur des Mac équipés de processeurs Silicon avec GPU intégrés.

L’avantage d’une solution packagée avec des outils professionnels Comparativement, un Mac Studio de prix similaire, avec une architecture matérielle équivalente, mais deux fois moins de RAM unifiée, exécute plutôt lui-même des LLM Open source de 13 milliards de paramètres, voire moins. Et il le fait via des outils communautaires, gratuits, comme LM Studio ou Ollama qui, pour l’heure, sont trop complexes ou trop limités sur une utilisation en entreprise. Ce détail est important, car la petite machine de Nvidia utilisera, elle, tous les logiciels professionnels que Nvidia commercialise dans son catalogue AI Enterprise. On ignore à ce stade de combien la souscription à ces logiciels augmentera le coût de la machine. Nvidia laisse en tout cas entendre qu’une offre « développeur » permettrait de les utiliser gratuitement dans des limites de taille ou d’exploitation. Ces outils sont notamment les microservices NIM qui correspondent à des chatbots, des fonctions de RAG et des LLM prêts à être utilisés. On trouve aussi les modules NeMo pour personnaliser (fine-tuning) et entraîner des modèles. Il est aussi question de donner accès à des applications et des agents IA prêts à être personnalisés, dans la collection Blueprints. Bien entendu, l’ensemble des kits de développement de Nvidia (impeccablement packagés avec les bonnes bibliothèques de fonctions et les bons environnements d’édition de code) doit être fourni par défaut. Les outils communautaires sur Mac ou PC sont bien plus sommaires. LM Studio et Ollama, par exemple, sont censés permettre l’injection de documents personnels pour nourrir la réflexion d’une IA (principe du RAG). Mais dans les faits, ces fonctionnalités ne sont pas encore opérationnelles. On ignore ainsi quand un clic sur l’icône du trombone dans LM Studio arrêtera de produire systématiquement un message d’erreur. Pour faire du RAG avec ces outils, il faut passer par un autre outil communautaire, AnythingLLM, qui convertit en amont les documents personnels en base de données vectorielles, puis injecte ces vecteurs lors des prompts. Une vraie usine à gaz.