Serveurs : Nvidia concrétise ses annonces au compte-gouttes

Le processeur Grace, le DPU Bluefield-3 ou les serveurs DGX H100 ne sont toujours pas disponibles. Lors de son événement semestriel, le constructeur a plutôt décliné les produits existants.

Six mois après avoir dévoilé la nouvelle puce accélératrice GH100 et la carte GPU H100 qui la porte, ainsi que le SOC GPU L40, Nvidia a détaillé fin mars les produits qu’il commercialisera autour. Il s’agit principalement de décliner les versions des cartes GPU et de mettre à jour les serveurs DGX et OVX qui les embarquent.

Malheureusement, l’événement GTC Spring de Nvidia n’a pas sonné le top départ pour la commercialisation de produits très attendus, dont la version de pointe des H100, ou encore le processeur Grace.

Pour mémoire, le couple GH100/H100 succède au couple GA100/A100 avec la promesse d’exécuter les moteurs de Machine learning neuf fois plus rapidement, et les moteurs de reconnaissance trente fois plus rapidement. Par ailleurs, la puce GH100 est équipée de nouveaux circuits Transformer Engine dont Nvidia dit désormais qu’ils sont censés accélérer les algorithmes d’IA générative, c’est-à-dire comme ceux sur lesquels reposent des services tels que ChatGPT.

Contrairement à l’A100, le GPU H100 ne peut pas être décliné en accélérateur graphique. C’est pour remplir cette fonction qu’existe à présent le GPU L40. Plus polyvalent, celui-ci peut tout autant servir dans les stations de travail pour accélérer l’affichage (cartes graphiques RTX4000 et RTX6000), comme dans les serveurs pour accélérer les simulations à base d’objets en 3D.

Une carte H100 NVL « double »

Jusqu’à présent, Nvidia ne commercialisait que des cartes H100 en version CNX, c’est-à-dire sous la forme d’une carte PCIe avec deux connecteurs réseau NVLink. Ceux-ci sont individuellement capables de communiquer en 300 Gbit/s avec d’autres cartes H100 installées dans d’autres serveurs. La version actuelle de la carte dispose de 80 Go de RAM.

Nvidia décline désormais cette carte en un modèle H100 NVL « double ». Il s’agit en fait de deux H100 installées l’une au-dessus de l’autre sur la même carte PCIe et qui communiquent entre elles, toujours, via leur réseau NVLink. En l’occurrence, chaque puce de la double carte H100 NVL est meilleure que celle de la H100 CNX, car il s’agit plus exactement de deux GPU H100 SXM collés dos à dos.

La déclinaison H100 SXM est celle que tout le monde attendait. Elle serait disponible en petite quantité – comprendre pour un nombre restreint d’entreprises, voire pour les hyperscalers uniquement. Sur la version H100 SXM, le connecteur PCIe (au bord de la carte) est remplacé par un socket NVLink (sous le GPU) capable de communiquer à 900 Gbit/s. Les GPUs SXM s’installent sur une carte « fond de panier » NVSwitch qui permet d’interconnecter jusqu’à huit GPU H100.

Les serveurs équipés d’un fond de panier NVSwitch s’appellent traditionnellement des machines HGX chez les constructeurs tiers. Nvidia commercialise lui-même de tels serveurs sous le nom de DGX. À l’heure où nous écrivons ces lignes, aucun nouveau serveur HGX ni DGX équipé de cartes H100 ne semble disponible. S’il serait dès à présent possible de remplacer les cartes A100 par des H100 dans les serveurs HGX et DGX précédemment commercialisés, Nvidia précise que ses DGX H100 seront équipés des derniers processeurs Xeon qu’Intel a commercialisés en début d’année.

Les puces GH100 des cartes H100 NVL et SXM fonctionnent à 1,98 GHz et communiquent avec leur mémoire intégrée HBM3 à la vitesse de 3,35 To/s. La puce GH100 de la carte H100 CNX fonctionne à 1,75 GHz et communique à la vitesse de 2 To/s avec sa mémoire intégrée HBM2. Par ailleurs, sur la carte CNX, la puce a environ 15 % moins de cœurs de traitements que sur les cartes NVL et SXM.

La carte NVL disposerait de deux fois 94 Go de RAM, alors que les deux autres cartes sont dotées de 80 Go de RAM.

Beaucoup de produits encore en attente

À terme, il sera possible d’installer sur un socket de la carte NVSwitch une carte avec un ou deux processeurs Grace, voire une carte avec un processeur Grace et une puce GH100. Ce très attendu processeur ARM conçu par Nvidia doit contenir 72 cœurs capables de communiquer entre eux à la vitesse de 3,2 To/s. L’intérêt de Grace est d’exceller là où un GPU en est incapable : sur l’exécution séquentielle d’un code applicatif. Grace est annoncé depuis longtemps par Nvidia.

L’information nouvelle de ce mois de mars, plutôt déceptive, est que la puce serait enfin en cours de fabrication. Ce qui sous-entend que les annonces publiées lors des deux années précédentes étaient en définitive prématurées. 

Dans le même ordre d’idée, le DPU BlueField-3, qui accélère le réseau (dont les déclinaisons du NVMe-over-Fabric), n’est pas non plus « enfin disponible ». NVidia s’est réjoui d’annoncer qu’il était « enfin en production ».

Dans ce contexte, l’annonce d’un serveur DGX Quantum doit être prise avec des pincettes. Plus exactement un concept qu’un produit véritablement fonctionnel, le DGX Quantum est censé servir de passerelle entre des traitements classiques et d’autres, effectués par un ordinateur quantique. Ce dernier, rappelons-le, n’existe pas encore. Ou alors à un état tellement embryonnaire qu’il reste loin de rivaliser avec un ordinateur classique.

Selon les présentations très marketing de Nvidia, le DGX Quantum fonctionnera avec des processeurs Grace – en cours de fabrication, donc – et aura des outils pour répartir les algorithmes entre Grace et un processeur quantique. Et aussi un kit de développement CUDA adapté aux processeurs quantiques. Le reste de la documentation fournie par Nvidia sur le sujet se contente de paraphraser tout ce que tout le monde a déjà écrit depuis des années sur le bruit quantique.

Le GPU L40 décliné en L4 économique

Concernant le GPU L40, enfin, Nvidia décline la version PCIe déjà commercialisée (également appelée « CNX ») en un modèle RTX L4 plus économique, car disposant d’environ deux fois moins d’unités de traitement.

La puce de la carte L40 est un AD102 à 1 GHz qui communique avec ses 24 Go de mémoire GDDR6 à la vitesse de 864 Go/s via un bus 384 bits. La puce de la carte L4 est un AD104 à 795 MHz qui dispose d’autant de mémoire, mais ne communique plus avec celle-ci qu’à la vitesse de 504 Go/s via un bus 192 bits. 

Selon Nvidia, les cartes L4 seraient plus adaptées à l’accélération des traitements vidéo, tandis que les L40 resteraient les plus adaptées aux calculs mathématiques des simulations.

Nvidia commercialise ses cartes graphiques à part ou au sein de serveurs OVX. Ceux-ci évoluent à présent en « OVX 3.0 ». En substance, il s’agit juste d’une mise à jour des machines basée sur les dernières générations de processeurs Intel Xeon.

DGX Cloud, pour louer la puissance plutôt que l’acheter

Plutôt que payer 200 000 dollars pour acheter un serveur DGX doté de huit cartes H100, il est désormais possible de le louer en cloud au tarif de 37 000 dollars/mois. L’enjeu est de répondre aux besoins des entreprises qui n’ont qu’un besoin ponctuel de puissance de calcul pour exécuter un moteur de Machine learning sur un jeu de données délimité.

« Vous ouvrez le service dans votre navigateur, vous y chargez votre programme de calcul, vous indiquez où se trouvent les données à traiter, vous appuyez sur le bouton Go et nous nous occupons de tout le reste. »
Manuvir DasVP, Enterprise Computing

« Pour le dire simplement, nous proposons le nec plus ultra des supercalculateurs en mode presse-bouton : vous ouvrez le service dans votre navigateur, vous y chargez votre programme de calcul, vous indiquez où se trouvent les données à traiter, vous appuyez sur le bouton Go et nous nous occupons de tout le reste », résume Manuvir Das, le patron des produits entreprise chez Nvidia, durant la conférence de presse de l’événement Nvidia GTC Spring.

L’offre est commercialisée soit directement par Nvidia, pour des serveurs DGX hébergés dans les datacenters d’Equinix, soit via OCI, le cloud public d’Oracle. À terme, Microsoft Azure et Google GCP devraient aussi héberger ce service. Selon Nvidia, il est probable que des intégrateurs souscrivent à l’offre pour la proposer à la découpe à leurs clients, l’offre étant conçue pour être multitenant, c’est-à-dire pour gérer et facturer plusieurs groupes d’utilisateurs simultanés. Dans tous les cas, les ressources utilisées seront dédiées, c’est-à-dire qu’il n’y a pas à craindre de chute de performance aléatoire selon le nombre d’applications exécutées en même temps.

AWS et Azure, les deux leaders de l’infrastructure en cloud public ne sont pas en reste et ont annoncé avoir déjà déployé des fermes de serveurs équipés de cartes H100. À la différence des offres DGX cloud qui reproduisent en ligne des serveurs DGX physiques, les offres d’AWS et Azure sont commercialisées soit comme des fermes de machines virtuelles nues, soit sous la forme de services d’IA prêts à l’emploi et reposant sur les derniers accélérateurs de Nvidia.

En clair, le propriétaire d’un serveur DGX sur site peut naturellement étendre sa puissance avec les DGX en ligne d’OCI ou d’Equinix – les logiciels sont les mêmes – tandis que les offres d’AWS et Azure sont autonomes.

Outre l’infrastructure elle-même, Nvidia commercialise aussi des services fonctionnels prêts à l’emploi sous forme de ressources PaaS utilisables dans d’autres applications. Il s’agit de NeMo pour interpréter et générer des contenus textuels, Picasso pour interpréter et générer des images, de la vidéo ou des objets 3D, et BioNeMO pour dresser des rapports scientifiques à partir de données de recherche.

Pour approfondir sur Processeurs et composants

Close