GTC2025 : « Nvidia recentre sa production sur les GPU haut de gamme »
Malgré un catalogue a priori aussi riche qu’auparavant, les nouveaux GPU Blackwell ne seront d’abord disponibles que sur un nombre très limité de modèles. Le très haut de gamme GB200 pour les hyperscalers et des cartes RTX pour le reste du monde.
Nvidia annonce déjà que son premier trimestre de l’année 2025 devrait se clôturer dans quelques jours sur un CA de 43 milliards de dollars, soit 9 % de mieux que le trimestre précédent, lors duquel il avait déjà battu tous les records de ventes de GPU. Le paradoxe est qu’il réussira cette prouesse alors que la capacité industrielle que lui accorde TSMC n’augmente pas, voire diminue.
Dans les faits, le constructeur a surtout bien plus rationalisé son catalogue que le laissent entendre ses annonces.
« Concernant les datacenters, nous nous focalisons essentiellement sur les ventes de GB200, à savoir le module qui comprend un processeur Grace et deux nouveaux GPU B200. Les GPU B200 seuls, sous la forme de cartes PCIe ne sont pas encore disponibles. Les GPU B100 ne sont pas en cours de fabrication », glisse Dave Salvator, le patron des produits d’accélération (en photo en haut de cet article), lors d’un entretien privé avec LeMagIT, en marge de la conférence GTC2025 qui vient de se tenir à San José, dans la banlieue de San Francisco.
« Les GPU B200 seuls, sous la forme de cartes PCIe ne sont pas encore disponibles. Les GPU B100 ne sont pas en cours de fabrication. »
Dave SalvatorDirector of Accelerated Computing Products, NVIDIA
Officiellement, les cartes PCIe B100 et B200 sont toujours présentées comme la nouvelle génération de GPU Nvidia, succédant aux H100 et H200. En pratique, elles n’existent pas.
« Les fabricants de serveurs x86 peuvent se tourner vers nos cartes PCIe RTX Pro, qui contiennent le même circuit que le GPU B200, mais dans un package dépourvu de mémoire HBM. Quant au B100… Écoutez, nos clients nous ont dit qu’ils préféraient acheter le modèle le plus performant. Nous n’avons donc pas jugé utile de lancer sa production », ajoute-t-il.
L’année dernière, le même Dave Salvator expliquait que B100 et B200 remplaceraient simplement les actuels H100 et H200 dans les mêmes serveurs. Les versions « 100 » ont un circuit avec tous les cœurs de calcul, tandis que les versions « 200 » en ont deux. Les versions « 100 » sont censées consommer 700 watts dans des serveurs classiquement refroidis à l’air, tandis que les versions « 200 » passent à 1 300 watts et ne peuvent fonctionner que dans des datacenters spécialement construits pour le refroidissement liquide.
C’est encore pire pour la version de GB200, la seule actuellement disponible, qui cumule à 3 300 watts puisqu’elle dispose de deux GPU B200 et un Grace à 700 watts. Comme ces cartes sont forcément livrées par deux dans un nœud serveur, il faut compter 6,6 kW par unité Rack.
En clair, seuls les fournisseurs de cloud qui investissent massivement dans la modernisation de leurs datacenters seront désormais à même de déployer les GPU haut de gamme, nécessaires à l’entraînement de modèles.
Remplacer des cartes H100 par des RTX Pro plus modernes, mais inférieures
Plus loin, sur le stand de Dell, un démonstrateur présente au MagIT le successeur du PowerEdge XE9680, à savoir le serveur x86 que le constructeur avait lancé il y a deux ans et qui comprenait jusque-là huit GPU H100 sous forme de cartes PCIe. Cette machine, refroidie à l’air, a permis à nombre d’entreprises de déployer dans leurs propres datacenters les traitements d’IA les plus lourds, dont l’entraînement de modèles. Désormais, l’offre est différente.
« Les entreprises sont plus intéressées par l’inférence, c’est-à-dire l’utilisation de modèles d’IA, plutôt que par leur entraînement »
Un démonstrateurSalon GTC2025, stand de Dell
« Comme vous pouvez le voir, les huit GPU sont désormais des cartes RTX Pro 6000, c’est-à-dire la version haut de gamme des nouvelles cartes graphiques RTX Pro, mais bien évidemment sans connecteur-écran. Ces cartes consomment individuellement 600 watts, soit 2,4 kW pour 5U. »
« Il s’agit pour ainsi dire de cartes qui succèdent aux L40S, les GPU de Nvidia dédiés à l’inférence. En même temps, les entreprises sont plus intéressées par l’inférence, c’est-à-dire l’utilisation de modèles d’IA, plutôt que par leur entraînement », explique le démonstrateur. Il précise que la machine peut être dotée de processeurs x86 de marque Intel ou AMD, au choix de l’entreprise.
Si l’on passe de cartes GPU de classe H100 à des cartes de classe RTX, c’est d’abord parce qu’il n’y a qu’une usine chez TSMC qui peut désormais produire des puces Nvidia avec une finesse de gravure de pointe en 3 nm, contre auparavant deux usines qui gravaient les circuits avec une finesse de 5 nm. Dans tous les cas, chaque usine produit pour Nvidia environ 2 millions de puces par an. En passant de deux usines à une seule, la production passe de 4 millions de puces à seulement 2 millions. Il a donc fallu sacrifier des modèles pour livrer en priorité ceux qu’attendent les plus gros clients.
« Nous avons cependant demandé à TSMC d’étudier la manière d’augmenter sa production », indique Dave Salvator.
Si l’on ne doute pas que Nvidia a certainement les ressources financières pour acheter une production plus conséquente à TSMC, il n’en reste pas moins que son usine de gravure en 3 nm travaille déjà en flux tendu. Elle produit dans le même temps les processeurs d’AMD, d’Apple, ainsi que ceux des hyperscalers AWS, Azure et GCP qui se sont récemment lancés, à leur tour, dans le développement de leurs propres puces ARM et de leurs propres GPU.
De fait, il paraît peu probable que le nombre de GPU mis sur le marché par Nvidia augmente beaucoup avant l’ouverture de nouvelles usines en 3 nm chez TSMC, ce qui ne devrait pas arriver avant 2026 ou 2027.
Moins de modèles disponibles
Jusque-là, Nvidia faisait fabriquer par TSMC deux types de circuits GPU. Il s’agissait d’une part des GPU Ada Lovelace, utilisés dans les cartes graphiques RTX pour PC (RTX 40x0 et 6 000) et L4 pour serveurs (L40, L40S..). Ces GPUs, qui ne possèdent que de la mémoire GDDR séparée, peuvent servir à accélérer l’inférence, c’est-à-dire l’utilisation de modèles d’IA pré-entraînés.
D’autre part, on trouvait les GPU Hopper (H100, H200) plus efficaces pour toutes les tâches d’IA. Les circuits Hopper ont été packagés dans des puces qui embarquent aussi une grande quantité de mémoire HBM3e. La puce H200 dispose par ailleurs de deux circuits Hopper.
Tous ces GPUs ont été commercialisés soit sous la forme d’une carte PCIe pour PC et serveurs, soit sous la forme d’une puce autonome. Dans ce second cas, les Ada Lovelace sont soudées sur la carte mère des PC portables et les Hopper le sont en deux exemplaires avec un processeur ARM Grace sur la carte mère d’un nœud de supercalculateur.
Dans la nouvelle génération Blackwell, Il n’y a plus qu’un seul modèle de circuit pour tous les GPU Nvidia. Il s’agit d’un circuit directement gravé en double, similaire au double circuit du H200. On ne le trouve plus que sous deux formes commerciales. Soit dans les cartes PCIe RTX Pro, avec une mémoire GDDR7 externe qui ira de 16 à 96 Go. Soit, donc, sous forme d’une puce B200 dotée de 192 Go de mémoire HBM3e, soudée en deux exemplaires avec un processeur Grace sur la demi-carte mère d’un nœud de supercalculateur.
A priori, la future version B300, prévue pour la fin de l’année, aura toujours le même double circuit Blackwell, mais sera montée dans une puce qui contiendra, cette fois-ci, de la mémoire HBM4. Lorsqu’elle sortira enfin des usines de SK Hynix.
Il est par ailleurs probable que les différentes gammes de cartes RTX soient équipées de circuits Blackwell avec plus ou moins de cœurs actifs. Il s’agit d’une pratique courante dans les semiconducteurs, où les fabricants (essentiellement Intel et AMD) recyclent au maximum les circuits qui ont souffert de défaut de gravure lors de la fabrication. Le plus souvent, il s’agit des circuits gravés sur les bords d’un wafer.
Une orientation tous azimuts vers les hyperscalers
Il suffit de lire les derniers résultats financiers de Nvidia pour comprendre pourquoi l’essentiel de ce qui sera produit dans l’usine de TSMC sera packagé sous la forme GB200, celle qui intéresse les hyperscalers.
Nvidia a terminé l’année 2024 avec un chiffre d’affaires trimestriel de 39,3 milliards de dollars, soit une progression de 78 % en un an. Plus impressionnant encore : 35,6 mds $, soit plus de 90 % de ce CA, a été réalisé avec uniquement les ventes de puces pour datacenters. C’est une progression de 93 % d’une année sur l’autre !
Ramené à l’année entière, le CA de Nvidia a atteint 130 mds $ en 2024, soit une progression de 114 % par rapport à 2023. Et les ventes des seuls produits pour datacenters lui ont rapporté 115,2 mds $, soit une augmentation de 142 %. Les trois quarts de ces produits « pour datacenters » ont en l’occurrence été achetés par six géants du cloud : AWS, Azure, GCP, Meta, xAI plus Tesla et ByteDance (l’éditeur de TikTok).
Dans le même temps, les cartes RTX pour PC ont rapporté 11,4 milliards de dollars sur l’année, soit une progression de 9 % par rapport à 2023.
Utiliser encore des H100 ? Oui, mais…
Sans cartes B100 à mettre dans leurs serveurs simplement refroidis à l’air – et sans doute sans carte B200 refroidis à l’eau non plus pour cause de non-disponibilité jusqu’à nouvel ordre –, les entreprises pourraient acquérir des lots de cartes H100 ou H200 que Nvidia semble toujours faire fabriquer dans les usines en 5 nm de TSMC.
« La finesse de gravure, le design et la quantité de mémoire HBM supplémentaire font que les GPU Blackwell sont [...] plus rentables en termes de performances/watts, même si un B200 consomme près de 2 fois plus qu’un H100. »
Dave SalvatorDirector of Accelerated Computing Products, NVIDIA
« Oui, nous fabriquons encore des modèles Hopper, mais leur production va s’arrêter », commente Dave Salvator, sans donner de date, mais en suggérant que ce pourrait être cette année.
« La finesse de gravure, le design et la quantité de mémoire HBM supplémentaire font que les GPU Blackwell sont finalement plus rentables en termes de performances/watts, même si, en effet, un B200 consomme près de deux fois plus qu’un H100. Un autre point important est que les GPU Blackwell sont les seuls à pouvoir exécuter de l’inférence avec une précision de calcul en FP4, bien plus rapide que la précision de calcul en FP8 des GPU Hopper », vante-t-il.
En l’occurrence, la vectorisation des informations sur 4 bits au lieu de 8 présente l’inconvénient d’aboutir à des résultats moins précis. Il faut également recoder les applications d’IA générative pour qu’elles prennent ce détail en compte, voire réentraîner tous les modèles. Mais Dave Salvator estime que ces écueils, purement logiciels, devraient être réglés d’ici à cet été. Au moment où la production de H100 cessera ?
Pour approfondir sur Hardware IA (GPU, FPGA, etc.)