Dell World 2023 : le PowerEdge XE9680, première machine HGX H100

Conçu pour décliner en entreprises des équivalents privés de ChatGPT, ce serveur très haut de gamme implémente l’architecture cluster HGX de Nvidia autour des derniers GPU H100.

Principale annonce matérielle du salon Dell Technologies World 2023 qui se tenait cette semaine à Las Vegas, Dell lance la commercialisation du PowerEdge XE9680, son serveur très haut de gamme dédié au calcul hautes performances en général et à l’IA générative en particulier. Jusqu’ici connue sous le nom de code Project Helix, la machine est l’une des premières à être équipées des dernières cartes GPU H100 SXM de Nvidia. Ce qui en fait la première configuration de cluster HGX H100 présentée sur le marché.

Le PowerEdge XE9680 a été présenté sur le salon accompagné de la suite logicielle AI Enterprise de Nvidia. Celle-ci doit permettre de déployer rapidement des équivalents privés de ChatGPT, qui sauraient répondre de manière très efficace aux questions des équipes internes et des clients concernant les informations qu’une entreprise possède sur ses serveurs.

Cette suite contient des modèles de Machine learning préentraînés pour analyser les données internes. Celles-ci seront idéalement stockées sur des baies PowerScale (soit des NAS Isilon désormais capables d’exécuter le système objet ECS) que Dell entend vendre en bundle avec le PowerEdge XE9680. Sont également fournis des frameworks de développement (NeMo…) pour façonner des chatbots sécurisés ou des applications d’IA générative plus complexes, mais aussi tous les outils pour créer, entraîner, rationaliser des modèles.

Enfin, la solution se complète de l’outil CloudIQ, qui observe les flux de données dans le datacenter, comprend les comportements et fournit une analyse prédictive sur les activités. L’ensemble sera commercialisé dès juillet via la console Apex. Pour l’heure, seuls des déploiements sur site sont prévus. Dell n’évoque pas encore la possibilité de répliquer le PowerEdge XE9680 en cloud en se basant sur les services des hyperscalers, comme le permet désormais la console Apex avec les autres produits d’infrastructure de Dell.

Huit GPUs H100 SXM qui communiquent en 900 Gbit/s

Dans le détail, le PowerEdge XE9680 est une machine 6U dont le châssis Rack de 107 kg laisse deviner deux parties distinctes. En haut, le compartiment dédié aux processeurs est plus court que, en bas, le compartiment dédié aux cartes GPU H100.

La partie processeur se compose de deux Intel Xeon, chacun équipé de 56 cœurs et accompagné de 16 barrettes de RAM DDR5. Le choix des Xeon peut surprendre dans une telle configuration, puisque Dell, comme ses concurrents, n’a de cesse d’expliquer que les processeurs Epyc d’AMD, équipés de plus de cœurs, sont plus rentables pour le supercalcul. La génération précédente de cette machine, le PowerEdge XE8545, accompagnait d’ailleurs ses GPUs A100 avec des Epyc. Néanmoins, LeMagIT croit comprendre des explications données lors du Dell Technology World que la partie calcul dépend plus que jamais des GPUs.

Le compartiment dédié aux GPUs contient huit cartes H100 de type SXM. Chaque GPU H100 fonctionne à 1,98 GHz et communique à la vitesse de 3,35 To/s avec une RAM intégrée sur circuit HBM3 de 80 Go.  

Pour mémoire, il existe trois modèles de cartes H100. Le modèle CNX est une carte PCIe qui possède deux connecteurs NVLink en 300 Gbit/s chacun servant à communiquer avec d’autres CNX et former ainsi un cluster de GPUs potentiellement à cheval entre plusieurs serveurs. C’est le modèle qui équipe depuis mars les serveurs standards, notamment ceux de HPE.

Le modèle SXM est une carte qui ne s’installe pas verticalement dans un slot PCIe, mais à plat sur un socket NVLink dont la bande passante est de 900 Gbit/s. Dans les serveurs DGX de Nvidia, appelés HGX chez les autres constructeurs, huit cartes SXM sont ainsi posées sur une carte NVSwitch qui assure l’interconnexion entre les huit GPUs ; la carte NVSwitch est de fait le socle du cluster de GPUs H100.

Les démonstrations ayant eu lieu lors du salon ont mieux fait comprendre pourquoi il faut une hauteur de 4U pour contenir huit GPUs posés à plat : chacun d’eux consommant 700W, ils sont surmontés d’imposants radiateurs.

Si Dell s’est targué d’être le premier à fabriquer une configuration HGX, il a néanmoins vite été rattrapé par SuperMicro qui a annoncé sa propre configuration HGX dans les heures qui ont suivi, avec une commercialisation qui pourrait même démarrer quelques jours avant celle du PowerEdge XE9680, soit avant le mois de juillet.

Le modèle NVL, enfin, correspond à deux cartes SXM accolées dos à dos via leur socket NVLink et insérées ensemble dans un slot PCIe. Ce modèle de GPUs pourrait arriver d’ici à la rentrée comme une version haut de gamme, ou monoserveur, du modèle CNX.

Pour approfondir sur HPC

Close