GTC2025 : Nvidia améliore déjà ses GPU Blackwell

Alors que les modèles B100 et B200 sortent à peine d’usine, le fabricant dévoile déjà un GPU B300 50 % plus rapide. Un système d’orchestration Dynamo, qui optimise leur fonctionnement, et des versions pour stations de travail sont aussi dévoilés.

La confĂ©rence GTC 2025 du fabricant de GPU Nvidia se tient cette semaine Ă  San JosĂ©, dans la banlieue de San Francisco. Et, comme on pouvait s’y attendre, le PDG Jensen Huang (en photo en haut de cet article) a galvanisĂ© une foule de 25 000 visiteurs avec tout un train d’annonces concernant les infrastructures qui motorisent l’IA, des datacenters jusqu’aux plus petits postes de travail.

En substance, les puces Blackwell sortent enfin d’usine et arrivent cette fois-ci dans toutes les familles de GPU – cartes graphiques, accĂ©lĂ©ratrices, pour serveurs, pour PC â€“ que Nvidia produit habituellement. En plus des actuels modèles B100 et B200 pour les data centers, une version « Ultra Â» B300 1,5 fois plus rapide – avec 288 Go de mĂ©moire HBM3e au lieu des 192 Go sur les autres modèles â€“ arrivera « plus tard cette annĂ©e Â».

Problème, selon les chiffres partagĂ©s par le PDG sur scène, 3,6 millions de Blackwell – soit plus exactement 1,8 million de puces bicĂ©phales â€“ ont dĂ©jĂ  Ă©tĂ© vendus aux principaux gĂ©ants d’Internet pour une livraison en 2025. Or, a priori, cela correspond, encore, Ă  plus des trois quarts de la production de Blackwell dont Nvidia sera capable cette annĂ©e.

Ă€ date, la vente de puces Blackwell aurait dĂ©jĂ  rapportĂ© 11 milliards de dollars Ă  Nvidia lors du prĂ©cĂ©dent trimestre. Le PDG veut croire qu’il atteindra un chiffre d’affaires annuel de 1 000 milliards de dollars d’ici Ă  2028.

Dynamo, un orchestrateur pour mieux répartir les traitements sur GPU

Les GPU vont par ailleurs s’accompagner d’un nouveau système baptisé Dynamo et qui revient à un orchestrateur façon Kubernetes, pour régler le nombre de ressources GPU attribuables à chaque tâche d’inférence.

« Il s’agit d’un système Open source, tĂ©lĂ©chargeable sur GitHub, qui va permettre aux fournisseurs de services de traitement d’IA en cloud de mieux faire bouger le curseur entre la puissance qu’ils accordent individuellement Ă  leurs utilisateurs et le rendement global de leur infrastructure Â», explique Ian Buck, qui dirige la branche Hyperscalers & Supercalcul chez Nvidia. Selon lui, un bon rĂ©glage de Dynamo aurait par exemple servi Ă  doubler la vitesse de traitement de Llama sur les GPU H200 d’un hĂ©bergeur. 

« Dynamo prend en compte la bande passante disponible sur les rĂ©seaux qui interconnectent les GPU pour mieux rĂ©partir les traitements en cascade. Â»
Ian BuckV-P, general manager, Hyperscale and HPC, NVIDIA

« Surtout, Dynamo va servir Ă  optimiser le fonctionnement et la tarification des modèles de raisonnement comme DeepSeek. Pour gĂ©nĂ©rer leurs rĂ©sultats, ces modèles dĂ©multiplient le nombre de tokens que l’utilisateur soumet Ă  une IA. Ils posent donc le risque de gĂ©nĂ©rer de la latence et des coĂ»ts prohibitifs. Dynamo prend en compte la bande passante disponible sur les rĂ©seaux qui interconnectent les GPU pour mieux rĂ©partir les traitements en cascade Â», argumente-t-il.

Selon Jensen Huang, l’utilisation conjointe de Dynamo, de puces B200 et d’un rĂ©entraĂ®nement des modèles avec une prĂ©cision FP4 – pour laquelle les puces Blackwell seraient particulièrement optimisĂ©es â€“ multiplierait les performances par 30 comparativement aux actuels clusters de GPU H200. Les mesures auraient Ă©tĂ© faites sur deux clusters DGX, contenant chacun 72 GPU, soit 18 serveurs Ă©quipĂ©s chacun de quatre puces accĂ©lĂ©ratrices.

Le B300, 1,5 fois plus rapide que le B200

Concernant le nouveau modèle B300, Nvidia le dĂ©crit avec une succession de chiffres. La puce serait capable de produire 1 000 tokens par seconde avec le modèle DeepSeek R1-671B, soit dix fois plus qu’un H200. « Une requĂŞte qui prend actuellement une minute et demie produira son rĂ©sultat en seulement dix secondes Â», lance Jensen Huang sur scène.

Avec sa vitesse de calcul de 15 PĂ©taflops en FP4 – contre 7 pour le B100 monocĂ©phale et 10 pour le B200 bicĂ©phale â€“, il va ĂŞtre possible d’atteindre une vitesse de 1,1 exaflops dans une seule armoire rack DGX de 72 GPU (18 x 4 GPU). Cette configuration DGX totaliserait 20,7 To de mĂ©moire HBM3e et 40 To de RAM standard.

En l’occurrence, les serveurs des clusters DGX fonctionnent avec des processeurs Grace, l’implĂ©mentation de l’architecture ARM par Nvidia, Ă  raison d’un Grace pour deux Blackwell. Les trois puces, avec 1,12 To de RAM externe pour le Grace, sont livrĂ©es sur un module appelĂ© GB (Grace-Blackwell) : GB200 actuellement, GB300 prochainement. Les cartes mères de ces serveurs comprennent deux modules GB.

Nvidia propose aussi une configuration DGX SuperPod qui consiste Ă  relier huit baies DGX en un super cluster. Un tel SuperPod totalise 288 processeurs Grace et 576 GPU Blackwell. Avec le B300, il s’agira d’un cluster contenant 165 To de mĂ©moire HBM3e et offrant une vitesse de 11,5 Exaflops en FP4.

Les puces B100 et B200 dĂ©sormais disponibles sur le marchĂ© ont une consommation identique aux modèles H100 et H200 prĂ©cĂ©dents : respectivement 700 et 1 300 watts. Nvidia n’a pas encore communiquĂ© la consommation qu’aura le prochain B300.

Des GPU Blackwell pour les stations de travail

Outre les clusters DGX, Nvidia va aussi dĂ©cliner son GPU B300 dans une station de travail dĂ©diĂ©e Ă  l’infĂ©rence sur site et baptisĂ©e « DGX Station Â». La carte mère de cette machine, attendue pour la fin de l’annĂ©e, comprendra un B300 et un processeur Grace. Elle totalisera 784 Go de RAM, dont 288 issus de la mĂ©moire HBM3e embarquĂ©e dans le B300.

La DGX Station est présentée comme une version haut de gamme et autonome de la DGX Spark, la mini station de bureau présentée plus tôt cette année, initialement sous le nom de Digits. L’usage est de télécharger sur ces machines des LLM afin que les chercheurs et les développeurs puissent mener leurs tests et leurs développements sans consommer des services de traitement d’IA en ligne facturés au nombre (imprévisible) de tokens.

La DGX Station disposera d’un connecteur Ethernet 800 Gbit/s, censĂ© lui permettre de s’assembler en cluster avec d’autres stations pour augmenter d’autant sa puissance de calcul.

Cette machine ne sera pas vendue par Nvidia lui-mĂŞme, mais par les fabricants habituels de PC : Dell, HP, Lenovo. Aucun prix n’a Ă©tĂ© communiquĂ©, mais plusieurs observateurs prĂ©sents Ă  la confĂ©rence GTC estiment que la DGX Station sera facturĂ©e plusieurs dizaines de milliers de dollars, comme le GPU B300.

Avant la DGX Station, les utilisateurs devraient pouvoir profiter des GPU Blackwell sur leurs PC grâce Ă  l’arrivĂ©e de cartes graphiques RTX Pro dotĂ©es de B200 amputĂ©s de leur mĂ©moire HBM. Les capacitĂ©s mĂ©moires devraient s’échelonner de 24 Ă  96 Go, sous la forme de puces GDDR7.

Ces cartes PCIe seront Ă©galement utilisables dans les serveurs, oĂą elles succĂ©deront aux cartes L40 jusqu’ici utilisĂ©es pour l’infĂ©rence uniquement.

Déjà l’annonce des GPU suivants

Sur scène, Jensen Huang a dĂ©jĂ  Ă©voquĂ© les puces qui succĂ©deront aux GPU Blackwell et aux processeurs Grace. La prochaine gĂ©nĂ©ration de GPU s’appellera Rubin et devrait apporter un gain de performances d’un facteur 3,3 par rapport aux actuels Blackwell.

A priori, ces GPU Rubin disposeront de la mĂŞme quantitĂ© de mĂ©moire embarquĂ©e, soit 192 ou 288 Go selon les modèles, mais cette mĂ©moire sera de la HBM4, voire HBM4e, plus rapide. Dans le dĂ©tail, la bande passante mĂ©moire des actuels Blackwell est de 8 To/s, qu’il s’agisse d’un B100, B200 ou B300. Elle serait de 13 To/s sur les prochains GPU Rubin.

Le successeur du processeur Grace sera le Vera. Il disposera de 88 cĹ“urs ARM, chacun capable d’exĂ©cuter deux flux d’instructions Ă  la fois. Le Vera communiquera avec les processeurs Rubin de son module Ă  la vitesse de 1,8 To/s. Il s’accompagnera de 2 To de mĂ©moire sur le module, a priori « VR Â», qui le connectera toujours Ă  deux GPU. 

Nvidia proposera toujours la configuration en cluster DGX de 18 serveurs sur une seule baie, sauf que celle-ci sera renommĂ©e NVL144, au lieu de NVL72 actuellement. Sur scène, Jensen Huang a expliquĂ© que cette coquetterie marketing reflĂ©tait mieux le fait que les GPU Ă©taient des puces bicĂ©phales. En matière de vitesse, une armoire rack DGX NVL144 offrirait 3,6 Exaflops.

Ces puces seront probablement mises sur le marché entre la fin 2026 et le début de l’année 2027.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)