
IA : Huawei dévoile son cluster de calcul rival de Nvidia
Le CloudMatrix 384 occupe 16 fois plus d’espace au sol et consomme 5 fois plus d’électricité que le DGX B200 NVL72 de Nvidia. Mais il est 70 % plus performant, permet d’entraîner des modèles 3,6 fois plus complexes et se contente d’un refroidissement par air.
Le constructeur chinois Huawei vient de dévoiler publiquement le CloudMatrix 384, son cluster de calcul pour l’entraînement des IA, lors du salon World Artificial Intelligence Conference qui se tient ces jours-ci à Shanghai. Présenté comme un concurrent du cluster DGX GB200 NVL72 de Nvidia, le superordinateur de Huawei est presque deux fois plus performant – 300 Pétaflops contre 180 chez Nvidia. Mais il est aussi beaucoup, beaucoup plus imposant. Il est constitué de 16 pleines baies racks, alors que le DGX tient dans une seule.
Pour Huawei, il s’agit du prix à payer pour totaliser une puissance de calcul supérieure à celle de son rival. Les puces HiSilicon Ascend 910C qu’il utilise sont individuellement trois fois moins performantes que les GPU B200 dont se sert Nvidia ; 780 Tflops en précision 16 bits, contre 2 500 Tflops, selon un tableau comparatif publié par le cabinet SemiAnalysis. Résultat, il a fallu que Huawei interconnecte cinq fois plus de GPU pour atteindre une vitesse 70 % meilleure que celle de Nvidia. Comme leurs noms l’indiquent, le CloudMatrix 384 possède 384 GPU, tandis que le DGX NVL72 n’en a que 72.
Physiquement, le CloudMatrix 384 est constitué de 12 baies rack contenant chacune quatre serveurs 8U de 8 GPU, plus 4 baies racks au centre contenant tous les switches réseau. Le DGX NVL72 est constitué de 18 serveurs 1U de 4 GPU.
Une surconsommation d’énergie à relativiser
Problème, l’appétit électrique est à l’avenant : SemiAnalysis compte que le cluster CloudMatrix 384 consomme environ 600 kWh, soit cinq fois plus que les 120 kWh du cluster DGX GB200 NVL72. Rapporté à la puissance délivrée, exécuter 1 000 milliards d’opérations mathématiques (1 Tflops) coûte 2,5 fois plus cher en énergie sur la solution chinoise : deux wattheures sur la machine de Huawei, contre 0,8 wattheure sur celle de Nvidia.
SemiAnalysis relativise quelque peu ces informations. Selon le cabinet, il est en pratique peu probable que des datacenters parviennent à faire tenir les 120 kW d’un DGX GB200 NVL72 dans une seule baie rack, même avec du refroidissement liquide. Dans un autre article, les analystes estiment que tout le monde déploiera plutôt la variante NVL36x2, qui répartit les 18 serveurs sur deux racks. L’ensemble consomme un peu plus : 132 kW, ou 66 kW par rack.
De fait, le CloudMatrix 384, qui ne consomme qu’un maximum de 40 kW par baie rack, présente paradoxalement l’avantage d’être plus facile à installer dans les datacenters. Huawei parvient même à le faire fonctionner sans refroidissement liquide.
Nvidia face à Huawei = l’Occident face à la Chine
Du fait de la politique étatsunienne concernant l’IA – ses alliés sont ceux qui achètent américain, et la Chine est l’adversaire principal –, il est peu probable que les clusters de Nvidia et de Huawei se retrouvent en compétition dans un appel d’offres occidental. La comparaison entre les deux machines de calculs a donc essentiellement une valeur géopolitique. Or, de ce point de vue, la surconsommation d’électricité du CloudMatrix 384 n’est plus forcément un problème.
« La Chine est plus limitée que quiconque sur l’accès aux puces les plus performantes, mais elle n’a pas de contraintes d’électricité. Ils ont massivement investi dans les centrales au charbon, ils ont la plus grande base installée au monde de panneaux solaires, d’hydroélectricité, d’éoliennes et, désormais, de centrales nucléaires. Rien que sur les dix dernières années, ils ont rajouté une puissance à leur réseau électrique qui équivaut à la puissance électrique totale des USA », écrit le cabinet SemiAnalysis.
Or, si l’énergie n’est plus un facteur limitant, le CloudMatrix 384 est bel et bien une machine plus performante. Le tour de force de Huawei est d’être parvenu à interconnecter autant de GPU ensemble. Techniquement, on parle ici d’une architecture de routage qui permet à chaque puce accélératrice de lire et écrire dans la mémoire de n’importe quelle autre, tant que le pool de GPU ne dépasse pas un certain plafond de puces. Le plafond de Huawei est cinq fois plus haut que celui de Nvidia.
Et comme la mémoire HBM ainsi agglomérée dans le pool est de 49,2 To sur le CloudMatrix 384 contre 13,8 To sur le DGX GB200 NVL72, la machine chinoise a le potentiel d’entraîner des modèles d’IA 3,6 fois plus complexes que la machine américaine. Il faudra attendre 2026, voire 2027, pour que Nvidia finisse de mettre au point ses clusters NVL576 qui permettront à 576 GPU de travailler ensemble sur le même entraînement.
2 734 clusters CloudMatrix 384, pas un de plus
Reste à savoir si la Chine va pouvoir se doter de clusters CloudMatrix 384 en grande quantité. Selon une enquête menée par le gouvernement américain, le fondeur chinois SMIC n’a pas été en mesure de graver les puces Ascend 910C. Huawei les aurait fait fabriquer chez TSMC en dissimulant sa commande derrière une société-écran. En effet, les USA ont sommé le géant taiwanais des semiconducteurs de ne pas travailler avec le constructeur chinois. TSMC encourt d’ailleurs une amende d’un milliard de dollars pour négligence, soit deux fois ce que lui a rapporté la fabrication des Ascend 910C.
À l’heure actuelle, Huawei aurait réussi à se faire fabriquer 1,05 million d’Ascend 910C, soit de quoi produire 2 734 machines.
Il existe désormais aussi une interdiction pour Samsung de lui vendre des mémoires HBM. Mais comme cette interdiction est arrivée plus tardivement, Huawei a eu le temps d’en commander assez pour équiper 1,6 million d’Ascend 910C.
Personne ne sait ce que Huawei parviendra à proposer après avoir vendu son premier lot de clusters CloudMatrix 384. Officiellement, SMIC serait en train de fabriquer l’Ascend 920, le GPU Huawei de la génération d’après. Et TSMC se dit incapable de savoir si d’autres de ses clients lui passent encore aujourd’hui des commandes pour le compte de Huawei.