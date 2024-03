Nvidia profite de son événement annuel GTC 2024, qui se tient cette semaine à San José, dans la Silicon Valley, pour dévoiler ses nouvelles générations de composants serveur. Le GPU Blackwell, dans sa déclinaison commerciale appelée B200, serait 4 fois plus performant que l’actuel H100 sur les algorithmes de Machine learning (10 PetaFLOPS en FP8) et 30 fois plus sur l’inférence (utilisation d’un modèle d’IA préentraîné, soit 20 PetaFLOPS en FP4).

« Entraîner un modèle avec 1800 milliards de paramètres coûte l’utilisation de 8000 GPUs H100 et 15 mégawatts de puissance électrique. On peut désormais effectuer ce même travail avec 2000 GPUs B200 et 4 mégawatts », argumente, sur scène, Jensen Huang, le PDG de Nvidia.

Les différents chiffres présentés suggèrent que la consommation électrique d’un B200 serait 30% supérieure à celle de l’actuel H100, soit environ 1000 watts au lieu de 700. On note par ailleurs que le B200 est une puce bicéphale, comme le H200 auquel Nvidia ne le compare pas. L’existence à terme d’une version B100 ne comportant qu’un seul circuit, comme le H100, a été évoquée. Le B200 intègre 192 Go de RAM HBM3e, contre 96 Go sur le H100 et 141 Go sur le H200.

Les GPU de Nvidia sont conçus pour fonctionner en grappe. Le B200 bicéphale dispose à ce titre d’une bande passante réseau de 1,8 To/s, soit le double des 900 Go/s du H100 monocéphale. En l’occurrence, il s’agit de 18 ports entrants à 50 Go/s chacun (900 Go/s) plus autant en sortant.

Vient ensuite une nouvelle puce réseau NVLink-5 qui dispose de 72 ports à 50 Go/s, entrants ou sortants, soit une bande passante de 3,6 To/s par puce NVLink. Cette puce est capable d’identifier 8 GPUs sur chacun de ses ports (routables par des switches en cascade), soit un total de 576 GPUs pouvant fonctionner de concert.

Les quantités annoncées de Go/s sont sans doute à prendre avec des pincettes. Nvidia remplace parfois 50 Go/s par 400 Gbit/s, ce qui correspond bizarrement à un octet pour huit bits. Or, s’il est plus conventionnel d’exprimer la vitesse d’un réseau en bit/s, dès lors qu’il s’agit d’un réseau avec des possibilités de routage, chaque trame de données est forcément constituée d’un en-tête. Et celle-ci consomme de la bande passante utile pour des raisons purement fonctionnelles. Dès lors, en 400 Gbit/s, par exemple, le débit est nécessairement inférieur à 50 Go/s (il devrait plutôt se situer aux alentours de 40 Go/s).

Du GPU au datacenter Nvidia À partir de ces puces, Nvidia a mis au point toute une hiérarchie de configurations serveur. On trouve ainsi la carte de calcul GB200 qui comprend deux GPU B200 et un processeur Grace, soit l’implémentation d’un ARM Neoverse V2 contenant 72 cœurs, conçu par Nvidia. Cette carte totalise 864 Go de RAM. Deux cartes GB200 pourront être réunies dans un nœud de calcul au format rack 1U appelé GB200 Superchip Compute Tray. Celui-ci, qui totalisera 80 PetaFLOPS de puissance en inférence et 40 PetaFLOPS en Machine learning, sera forcément refroidi par liquide. Également proposé en boîtier 1U, le switch NVLink Switch Tray intégrera quatre puces de routage NVLink-5, pour router en façade arrière une bande passante agglomérée de 14,4 To/s. Nvidia propose d’assembler dans une seule étagère Rack dix-huit Compute Tray et neuf modules switch NVLink-5. Une telle configuration serait baptisée GB200 NVL72. Il sera possible d’assembler huit étagères GB200 NVL72 pour former un cluster DGX de nouvelle génération, avec 576 GPUs, 288 processeurs Grace et 240 To de mémoire. Ces clusters sont connectables à des baies de stockage et des serveurs x86 plus conventionnels. Nvidia propose à cet effet deux nouveaux switches. Le Spectrum-X800 dispose de 64 connecteurs Ethenet en 800 Gbit/s. Le Quantum X-800 offre 144 connecteurs Infiniband, également en 800 Gbit/s.