GTC 2026 : maintenant, Nvidia part à la conquête des serveurs
Le numéro 1 des puces accélératrices pour l’IA a ouvert son salon annuel avec la présentation de serveurs prêts à l’emploi, dépourvus de ses derniers GPU Rubin, mais servant tout de même à exécuter des IA. Les autres fabricants de serveurs sont priés d’acheter des licences.
Nvidia ne veut plus se contenter de vendre des puces accélératrices pour l’IA aux fabricants de serveurs. En ouverture de son événement annuel GTC qui se tient cette semaine à San José, le patron du constructeur, Jensen Huang, a montré sur scène toute une collection de machines prêtes à l’emploi que les hyperscalers et les grands clients n’ont plus qu’à directement lui acheter.
« Notre nouvelle génération de puces comprend sept accélérateurs qui battent tous les records de vitesse dans leurs domaines respectifs. C’est un coup de pied historique aux designs des infrastructures. Il faut donc une plateforme qui tire parti de l’ensemble pour maximiser les performances et minimiser les coûts » a lancé Jensen Huang (en photo en haut de cet article), en pressant le public de se dépêcher de lui acheter des racks de serveurs pour faire des économies dans leurs projets d’IA.
Nvidia avait déjà une configuration prête à l’emploi, la plus haut de gamme possible : la baie DGX NVL-72 qui réunit dans une armoire rack 72 de ses GPU, 36 de ses processeurs et quatre de ses switches. Elle existe toujours et sera désormais équipée de GPU Rubin, de processeur Vera et de switches NVLink-6. Elle ne sert qu’à entraîner des IA. Désormais, Nvidia a aussi des serveurs LPX pour exécuter ces IA, des serveurs Vera pour exécuter les applications autour de ces IA, des baies de stockage STX pour héberger les données de ces IA et même des baies de brassage SPX pour interconnecter l’ensemble avec le reste du datacenter.
L’étagère rack dans laquelle on insère tous ces éléments se standardise aussi. Dotée d’un fond de panier MGX breveté par Nvidia, elle permet de mixer des modules de différentes natures. Les fabricants habituels – Dell, HPE, Lenovo, Cisco et autres marques de baies de stockage – sont invités à acheter des licences pour produire des modules compatibles.
Ils peuvent aussi acheter les cartes mères de Nvidia et mettre leur logo dessus. Dans les allées du salon, il courrait d’ailleurs cette idée qu’acheter des cartes mères prêtes à l’emploi, plutôt que s’efforcer d’en produire soi-même avec un lot de puces, serait sans doute un moyen plus sûr de pouvoir vendre des serveurs aussi performants que ceux des hyperscalers.
Selon certains observateurs, AWS, Azure, GCP et d’autres néoclouds préemptent jusqu’à 75% de la production annuelle de Nvidia pour devenir incontournables dans les infrastructures capables d’exécuter des IA. En face, les fabricants historiques d’équipements pour datacenters privés cherchent des solutions pour répondre à une demande croissante d’IA déployées sur site.
Un cluster LPX de puces Groq pour délester l’inférence sur des machines moins chères
Parmi les nouvelles machines de Nvidia, la plus saillante est sans doute le serveur LPX, qui contient huit accélérateurs d’inférence LPU de Groq. Groq était une startup qui avait développé une puce peu chère, mais très performante pour exécuter les prompts des utilisateurs. En fin d’année dernière, Nvidia a embauché tous ses ingénieurs et a, de fait, mis la main sur cette technologie. Il l’utilise de manière complémentaire avec ses propres GPU pour délester sur des machines moins chères une partie des calculs liés à l’inférence.
Selon un technicien de Nvidia que LeMagIT a interrogé sur le stand où les serveurs SPX étaient exposés, le principe technique est exactement le même que dans la conjugaison d’une puce WSE-3 de Cerebras avec un accélérateur Trainium3 qu’AWS a présentée quelques jours plus tôt :
« L’exécution d’un prompt se passe en deux parties. La première, le prefill, nécessite beaucoup de puissance de calcul, parce qu’il s’agit de synthétiser sous forme de tokens le contexte que vous donnez à l’IA puis de générer les vecteurs qui vont pointer vers les éléments de réponse dans la base de connaissance d’un LLM. Tout cela est exécuté par notre GPU Rubin, depuis nos serveurs DGX », commence notre interlocuteur.
« La seconde partie, le decode, consiste juste à récupérer très vite tous les vecteurs nécessaires dans le LLM pour enchaîner les éléments de la réponse. Là, ce n’est plus la puissance de calcul qui compte, mais la très faible latence avec la RAM. Celle des puces Groq est de la SRAM, c’est-à-dire du cache, bien plus rapide (150 To/s) que la mémoire HBM4 embarquée dans les Rubin (22 To/s). Donc le serveur DGX envoie par Ethernet l’ordre au serveur LPX d’effectuer cette seconde partie. »
« Et une fois que le serveur LPX a collecté tous les tokens de la réponse, il les renvoie au serveur DGX qui, lui, fait le rendu final de la réponse, sous forme de texte, d’image, ou autre », explique-t-il.
Le paradoxe est que les puces LPU de Groq, ici renommées Groq-3, embarquent moins de mémoire cache que la quantité de mémoire HBM4 présente dans un Rubin : seulement 500 Mo, contre 288 Go sur la toute dernière génération de GPU que Nvidia commencera à livrer cet été aux hyperscalers et l’année prochaine aux fabricants de serveurs. Or, c’est bien dans la mémoire du Groq-3 que doit résider le plus gros des données, à savoir le LLM.
En précision 4 bits, qui semble à la mode dans les usages anglophones, un LLM de 100 milliards de paramètres pèse 50 Go. En 8 bits, la seule précision qui prenne en compte les subtilités de la conjugaison en français, ce sera le double.
« Oui, mais chaque serveur LPX comprend quatre Groq-3 et nous pouvons mettre en cluster 32 paires de ces serveurs, soit 256 puces Groq-3 qui totalisent 128 Go de mémoire cache », ajoute l’expert, en suggérant qu’il faut acheter un cluster entier pour héberger le LLM vers lequel tous les GPU Rubin vont envoyer leurs requêtes.
Selon Nvidia, les bandes passantes des puces Groq-3 se cumulent, soit 40 Po/s. Pour autant, le réseau Ethernet vers le serveur DGX qui a envoyé la requête reste un goulet d’étranglement. Même avec le protocole Spectrum-X, l’extension propriétaire du RoCE (RDMA-over-Converged Ethernet) que Nvidia implémente dans ses derniers switches Spectrum 6, l’ensemble du cluster de serveurs LPX ne pourra communiquer ses résultats qu’à la vitesse de 640 To/s. Cela reste, cela dit, bien supérieur aux 22 To/s de la mémoire HBM4 sur Rubin.
Nvidia ne communique pas sur le prix de ses machines. L’avantage économique des serveurs LPX serait qu’ils coûteraient bien moins cher en énergie que les serveurs DGX qui seront commercialisés en même temps et qui comprendront un nouveau processeur Vera et deux nouveaux GPU Rubin.
Des serveurs uniquement dotés de processeurs Vera pour les applications
Le cluster de serveurs ne contenant que des processeurs Vera se compose lui aussi de 32 machines avec chacune huit puces, soit un total de 256. Le Vera est un processeur ARM qui contient 88 cœurs Olympus pouvant chacun exécuter deux threads simultanés. Son bus serait trois fois plus rapide vers la RAM que celui d’un processeur x86 d’Intel ou d’AMD, soit 1,2 To/s vers des barrettes de DRAM SOCAMM LPDDR5, qui consommeraient deux fois moins d’énergie que les barrettes DDR5 que l’on trouve dans les serveurs x86.
« Les hébergeurs d’applications d’IA ont besoin de machines équipées de processeurs qui sont autant multicœurs que ceux des serveurs traditionnels, où chaque cœur est aussi performant que dans le processeur d’une station de travail et qui consomment aussi peu que des processeurs pour mobiles. Le processeur Vera a ces caractéristiques », lance Ian Buck, le directeur de la division Hyperscalers & Supercalcul chez Nvidia, qui positionne ces serveurs dépourvus de GPU sur le segment des machines exécutant toutes les applications autour de l’IA.
Le contexte est que Nvidia vend, en plus de ces puces, toute la pile logicielle qui sert à faire de l’IA. Du kit de développement Cuda rempli de bibliothèques maison pour écrire ses propres applications, aux interfaces « Nemo » clés en main pour faire travailler des LLM dans la recherche, dans des usines, en entreprise, dans des robots, dans des véhicules et même, c’est nouveau, dans des vaisseaux en orbite. Et tous ces logiciels ne fonctionnent correctement que sur des serveurs équipés de puces Nvidia.
En d’autres termes, on veut bien croire Nvidia quand il dit que le processeur Vera est intrinsèquement mieux conçu qu’un x86. Mais on ignore si ce processeur doit une partie de ses performances à des algorithmes – fermés – qui auraient été bien mieux optimisés pour lui qu’ils le sont pour les processeurs x86. Il y a eu des précédents chez Intel qui publiait des compilateurs générant des binaires bizarrement peu performants sur les processeurs de son concurrent AMD.
Toujours est-il qu’un cluster de 256 processeurs Vera serait capable d’exécuter 45 056 threads d’applicatifs Linux simultanément, avec une bande passante totalisant 300 To de données traitées par seconde. Ubuntu et Red Hat ont déjà des systèmes d’exploitation entièrement adaptés, avec un orchestrateur Kubernetes absolument optimisé pour exécuter les applications en containers, soit le format des applications dites cloud-natives.
Comme dans le cas du cluster de serveurs LPX, les machines communiquent entre elles via un réseau Spectrum-X.
MGX, un format auquel doivent se plier les autres constructeurs
Les autres fabricants de serveurs et de baies de disques sont invités à se conformer au fond de panier MGX s’ils souhaitent vendre leurs matériels comme extensions des configurations Nvidia. Selon Nvidia, ils seraient 80 à en avoir pris une licence. Cette conformité MGX consiste à présenter quatre connecteurs rectangulaires sur chaque tranche de 1U
La baie Nvidia MGX reprend les dimensions du format Open Compute Project (OCP), c’est-à-dire des étagères rack larges de 21 pouces, en vigueur dans les supercalculateurs et chez les hyperscalers. Les entreprises, elles, utilisent dans leurs datacenters des étagères rack larges de 19 pouces pour accueillir les serveurs de calcul et de stockage des fabricants historiques.
Deux autres détails caractérisent ce format MGX. D’une part, tous les éléments sont refroidis par liquide. Cela permet de fabriquer des matériels avec des tuyaux rigides qui, en étant dissimulés dans la structure des serveurs et de la baie, donnent une meilleure impression de fiabilité que le salmigondis de flexibles rouges et bleu que l’on voit habituellement.
D’autre part, le courant est distribué à partir d’une tension en 800 volts, contre 54 volts d’ordinaire. Selon Nvidia, cette approche est la seule qui garantisse aux baies de calcul de pouvoir consommer des mégawatts d’électricité.
Enfin, la nouveauté de ce nouveau format est que les switches installés à l’arrière sont plus versatiles. Jusqu’ici, les serveurs d’une baie DGX ne pouvaient communiquer qu’en NVLink, via quatre tringles verticales de 18 connecteurs rectangulaires chacune, d’où l’acronyme NVL-72. À présent, on trouve des dénominations NVL-8 et ETL-256.
NVL-8 correspond à la présence deux tringles de quatre connecteurs NVLink, manifestement censées relier entre eux quatre nœuds 2U de GPU seuls. Selon la compréhension du MagIT, ces nœuds seraient composés d’une future version de Rubin, dite Ultra-Rubin, qui comprend sur la même puce SOC deux GPU Rubin accolés.
La dénomination ETL 256 correspond pour sa part à quatre tringles de 32 connecteurs Ethernet chacune. Ces tringles sont des switches Spectrum-X, soit le protocole Ethernet propriétaire que Nvidia a développé comme une amélioration de RoCE (RDMA-over-Converged-Ethernet). Les modules de Nvidia qui s’interconnecteront dans une baie ETL-256 sont typiquement ceux de stockage STX, mais également les switches Spectrum-X installés en façade et dotés de connecteurs vers l’extérieur de la baie. Nvidia s’attend à ce que les fabricants proposent aussi leurs propres serveurs x86 ou de stockage compatibles MGX, en variante ETL-256.
Jensen Huang a terminé la présentation de ses nouvelles infrastructures en évoquant un nouveau design « Kyber ». Il s’agit toujours, a priori, d’un format MGX, mais les serveurs DGX seront cette fois-ci installés verticalement, comme des lames, à raison de 16 lames en largeur sur 9 en hauteur. Cette approche va permettre de mettre dans la même baie 144 GPU Rubin et 72 processeurs Vera.
