Alors que les modèles B100 et B200 sortent à peine d’usine, le fabricant dévoile déjà un GPU B300 50 % plus rapide. Un système d’orchestration Dynamo, qui optimise leur fonctionnement, et des versions pour stations de travail sont aussi dévoilés.
La conférence GTC 2025 du fabricant de GPU Nvidia se tient cette semaine à San José, dans la banlieue de San Francisco. Et, comme on pouvait s’y attendre, le PDG Jensen Huang (en photo en haut de cet article) a galvanisé une foule de 25 000 visiteurs avec tout un train d’annonces concernant les infrastructures qui motorisent l’IA, des datacenters jusqu’aux plus petits postes de travail.
En substance, les puces Blackwell sortent enfin d’usine et arrivent cette fois-ci dans toutes les familles de GPU – cartes graphiques, accélératrices, pour serveurs, pour PC – que Nvidia produit habituellement. En plus des actuels modèles B100 et B200 pour les data centers, une version « Ultra » B300 1,5 fois plus rapide – avec 288 Go de mémoire HBM3e au lieu des 192 Go sur les autres modèles – arrivera « plus tard cette année ».
Problème, selon les chiffres partagés par le PDG sur scène, 3,6 millions de Blackwell – soit plus exactement 1,8 million de puces bicéphales – ont déjà été vendus aux principaux géants d’Internet pour une livraison en 2025. Or, a priori, cela correspond, encore, à plus des trois quarts de la production de Blackwell dont Nvidia sera capable cette année.
À date, la vente de puces Blackwell aurait déjà rapporté 11 milliards de dollars à Nvidia lors du précédent trimestre. Le PDG veut croire qu’il atteindra un chiffre d’affaires annuel de 1 000 milliards de dollars d’ici à 2028.
Dynamo, un orchestrateur pour mieux répartir les traitements sur GPU
Les GPU vont par ailleurs s’accompagner d’un nouveau système baptisé Dynamo et qui revient à un orchestrateur façon Kubernetes, pour régler le nombre de ressources GPU attribuables à chaque tâche d’inférence.
« Il s’agit d’un système Open source, téléchargeable sur GitHub, qui va permettre aux fournisseurs de services de traitement d’IA en cloud de mieux faire bouger le curseur entre la puissance qu’ils accordent individuellement à leurs utilisateurs et le rendement global de leur infrastructure », explique Ian Buck, qui dirige la branche Hyperscalers & Supercalcul chez Nvidia. Selon lui, un bon réglage de Dynamo aurait par exemple servi à doubler la vitesse de traitement de Llama sur les GPU H200 d’un hébergeur.
« Dynamo prend en compte la bande passante disponible sur les réseaux qui interconnectent les GPU pour mieux répartir les traitements en cascade. »
Ian BuckV-P, general manager, Hyperscale and HPC, NVIDIA
« Surtout, Dynamo va servir à optimiser le fonctionnement et la tarification des modèles de raisonnement comme DeepSeek. Pour générer leurs résultats, ces modèles démultiplient le nombre de tokens que l’utilisateur soumet à une IA. Ils posent donc le risque de générer de la latence et des coûts prohibitifs. Dynamo prend en compte la bande passante disponible sur les réseaux qui interconnectent les GPU pour mieux répartir les traitements en cascade », argumente-t-il.
Selon Jensen Huang, l’utilisation conjointe de Dynamo, de puces B200 et d’un réentraînement des modèles avec une précision FP4 – pour laquelle les puces Blackwell seraient particulièrement optimisées – multiplierait les performances par 30 comparativement aux actuels clusters de GPU H200. Les mesures auraient été faites sur deux clusters DGX, contenant chacun 72 GPU, soit 18 serveurs équipés chacun de quatre puces accélératrices.
Le B300, 1,5 fois plus rapide que le B200
Concernant le nouveau modèle B300, Nvidia le décrit avec une succession de chiffres. La puce serait capable de produire 1 000 tokens par seconde avec le modèle DeepSeek R1-671B, soit dix fois plus qu’un H200. « Une requête qui prend actuellement une minute et demie produira son résultat en seulement dix secondes », lance Jensen Huang sur scène.
Avec sa vitesse de calcul de 15 Pétaflops en FP4 – contre 7 pour le B100 monocéphale et 10 pour le B200 bicéphale –, il va être possible d’atteindre une vitesse de 1,1 exaflops dans une seule armoire rack DGX de 72 GPU (18 x 4 GPU). Cette configuration DGX totaliserait 20,7 To de mémoire HBM3e et 40 To de RAM standard.
En l’occurrence, les serveurs des clusters DGX fonctionnent avec des processeurs Grace, l’implémentation de l’architecture ARM par Nvidia, à raison d’un Grace pour deux Blackwell. Les trois puces, avec 1,12 To de RAM externe pour le Grace, sont livrées sur un module appelé GB (Grace-Blackwell) : GB200 actuellement, GB300 prochainement. Les cartes mères de ces serveurs comprennent deux modules GB.
Nvidia propose aussi une configuration DGX SuperPod qui consiste à relier huit baies DGX en un super cluster. Un tel SuperPod totalise 288 processeurs Grace et 576 GPU Blackwell. Avec le B300, il s’agira d’un cluster contenant 165 To de mémoire HBM3e et offrant une vitesse de 11,5 Exaflops en FP4.
Les puces B100 et B200 désormais disponibles sur le marché ont une consommation identique aux modèles H100 et H200 précédents : respectivement 700 et 1 300 watts. Nvidia n’a pas encore communiqué la consommation qu’aura le prochain B300.
Des GPU Blackwell pour les stations de travail
Outre les clusters DGX, Nvidia va aussi décliner son GPU B300 dans une station de travail dédiée à l’inférence sur site et baptisée « DGX Station ». La carte mère de cette machine, attendue pour la fin de l’année, comprendra un B300 et un processeur Grace. Elle totalisera 784 Go de RAM, dont 288 issus de la mémoire HBM3e embarquée dans le B300.
La DGX Station est présentée comme une version haut de gamme et autonome de la DGX Spark, la mini station de bureau présentée plus tôt cette année, initialement sous le nom de Digits. L’usage est de télécharger sur ces machines des LLM afin que les chercheurs et les développeurs puissent mener leurs tests et leurs développements sans consommer des services de traitement d’IA en ligne facturés au nombre (imprévisible) de tokens.
La DGX Station disposera d’un connecteur Ethernet 800 Gbit/s, censé lui permettre de s’assembler en cluster avec d’autres stations pour augmenter d’autant sa puissance de calcul.
Cette machine ne sera pas vendue par Nvidia lui-même, mais par les fabricants habituels de PC : Dell, HP, Lenovo. Aucun prix n’a été communiqué, mais plusieurs observateurs présents à la conférence GTC estiment que la DGX Station sera facturée plusieurs dizaines de milliers de dollars, comme le GPU B300.
Avant la DGX Station, les utilisateurs devraient pouvoir profiter des GPU Blackwell sur leurs PC grâce à l’arrivée de cartes graphiques RTX Pro dotées de B200 amputés de leur mémoire HBM. Les capacités mémoires devraient s’échelonner de 24 à 96 Go, sous la forme de puces GDDR7.
Ces cartes PCIe seront également utilisables dans les serveurs, où elles succéderont aux cartes L40 jusqu’ici utilisées pour l’inférence uniquement.
Déjà l’annonce des GPU suivants
Sur scène, Jensen Huang a déjà évoqué les puces qui succéderont aux GPU Blackwell et aux processeurs Grace. La prochaine génération de GPU s’appellera Rubin et devrait apporter un gain de performances d’un facteur 3,3 par rapport aux actuels Blackwell.
A priori, ces GPU Rubin disposeront de la même quantité de mémoire embarquée, soit 192 ou 288 Go selon les modèles, mais cette mémoire sera de la HBM4, voire HBM4e, plus rapide. Dans le détail, la bande passante mémoire des actuels Blackwell est de 8 To/s, qu’il s’agisse d’un B100, B200 ou B300. Elle serait de 13 To/s sur les prochains GPU Rubin.
Le successeur du processeur Grace sera le Vera. Il disposera de 88 cœurs ARM, chacun capable d’exécuter deux flux d’instructions à la fois. Le Vera communiquera avec les processeurs Rubin de son module à la vitesse de 1,8 To/s. Il s’accompagnera de 2 To de mémoire sur le module, a priori « VR », qui le connectera toujours à deux GPU.
Nvidia proposera toujours la configuration en cluster DGX de 18 serveurs sur une seule baie, sauf que celle-ci sera renommée NVL144, au lieu de NVL72 actuellement. Sur scène, Jensen Huang a expliqué que cette coquetterie marketing reflétait mieux le fait que les GPU étaient des puces bicéphales. En matière de vitesse, une armoire rack DGX NVL144 offrirait 3,6 Exaflops.
Ces puces seront probablement mises sur le marché entre la fin 2026 et le début de l’année 2027.
Pour approfondir sur Hardware IA (GPU, FPGA, etc.)