Le constructeur prétend lancer la meilleure alternative aux GPU Blackwell de Nvidia. Son GPU MI350X peut charger des LLM de plus grande taille qu’un B200, avec une précision de 6 bits inédite qui autorise de meilleurs compromis en inférence.
Trois mois plus tard, exactement au même endroit, AMD a organisé une conférence pour dévoiler sa réponse aux annonces que Nvidia avait faites lors de sa GTC2025. Le fabricant de puces a présenté cette semaine au Convention Center de San José son nouveau GPU MI350X et la version 7 de la suite logicielle ROCm qui l’accompagne.
« En 2018, nous avons renversé la table dans le monde des serveurs avec le processeur Epyc qui avait un bien meilleur rendement que celui de la concurrence. Nous sommes en train de faire exactement la même chose aujourd’hui avec nos derniers GPU » a lancé Lisa Su, la PDG d’AMD (en photo en haut de cet article), sur scène, face à un public de partenaires et de clients manifestement euphoriques à l’idée de pouvoir acheter des accélérateurs de traitements d’IA ailleurs que chez Nvidia.
« 40 % plus rentable » (qu’un B200 de Nvidia)
AMD positionne le GPU MI350X en concurrent direct du dernier B200 de Nvidia. La principale argumentation technique est qu’il embarque 60 % de mémoire HBM3e en plus. Cela lui permettrait de faire tourner une IA d’autant plus grande. Le fabricant parle d’un LLM théorique de 520 milliards de paramètres.
Toutefois, si le B200 n’a bien que 192 Go de mémoire HBM3e, Nvidia a évoqué l’arrivée d’ici à la fin de l’année d’un B300 avec 288 Go.
Le MI350X implémente aussi un nouveau mode de précision en 6 bits, avec la même rapidité qu’une précision en 4 bits, mais avec une qualité de données plus proche de celles encodées en 8 bits. Une telle précision de 6 bits est possible sur les GPU de Nvidia. Mais comme ils n’ont rien pour l’accélérer, un MI350X serait deux fois plus rapide qu’un B200 quand il l’utilise.
Pour le reste, AMD affiche des résultats qu’il a calculés lui-même sur des LLM de tailles diverses, encodés de manières diverses, et qui semblent démontrer que le MI350X est tout aussi puissant qu’un B200, quel que soit le scénario.
Mais c’est étonnant, car AMD parle d’un score de 18,4 Pétaflops/s (ou Pflops, soit des millions de milliards d’opérations à la seconde) en précision 4 bits et 6 bits, de 9,2 Pflops en 8 bits, et encore deux fois moins à chaque fois qu’on double la précision. Or, selon Nvidia, le score de performances du B200 serait deux fois moindre : 10 Pétaflops en 4 bits, 5 Pétaflops en 8 bits. Le B300 atteindrait quant à lui 15 Pétaflops en 4 bits et 7,5 Pétaflops en 8 bits.
En matière de coût, le MI350X serait 40 % plus rentable qu’un B200, sans qu’on sache si AMD compare les prix d’achat ou les factures électriques pour venir à bout d’un calcul. Le prix de la puce n’a pas été communiqué, pas plus que Nvidia n’a communiqué sur le prix de son B200.
1,28 Exaflops dans une baie rack
Concernant l’implémentation, AMD n’évoque pour l’heure que des designs dans lesquels huit MI350X seraient installés à plat sur la carte fille d’un serveur rack. Il pourrait s’agir d’une carte fille derrière la carte mère, dans la profondeur d’un serveur au format OCP (Open Compute Platform, utilisé chez les hyperscalers et dans les supercalculateurs). Ou d’une carte fille installée au-dessous, voire au-dessus, dans la hauteur d’un serveur rack classique, comme ceux que propose Dell.
En refroidissement par air, la partie du serveur intégrant cette carte fille aurait une hauteur de 4U, soit un total de 6U par nœud de calcul en comptant la partie processeurs. En refroidissement liquide, la taille pourrait n’être que de 2U, voire 1U pour l’ensemble du serveur.
À noter qu’AMD prévoit une version de son nouveau GPU dédiée au refroidissement liquide : le MI355X. Il s’agit juste d’une version overclockée du MI350X, qui apporte un léger gain de performances – par exemple 10 Pflops au lieu de 9,2 en précision 8 bits. Mais moyennant une enveloppe thermique bien plus importante, soit 1400 W par puce au lieu de 1000 W pour le MI350X de base.
Comparativement, l’ancien MI300X avait une enveloppe thermique de 750 W. Quant à celle du B200 de Nvidia, elle est de 1300 W pour une puce qui ne fonctionne que dans des serveurs refroidis à l’eau. On ignore encore celle du B300.
En refroidissement liquide, AMD évoque une baie entière de seize serveurs 2U, plus quatre switches d’interconnexion également de 2U (soit 40U). Elle contiendrait 128 GPU MI355X, 36 To de mémoire HBM3e et atteindrait une puissance de calcul de 1,28 Exaflops/s avec une précision de 8 bits, ou le double avec une précision de 6 bits. En refroidissement par air, un serveur de 6U contenant huit MI350X offrirait 2,25 To de mémoire HBM3e et une puissance de 73,8 Pflops en 8 bits.
Dans tous les cas, ces serveurs seraient équipés de deux processeurs Epyc 9005. Contrairement aux versions précédentes, AMD ne compte pas décliner ses nouveaux GPU en versions « A » (pour « APU »). Le MI300A était une puce hybride qui contenait à la fois des cœurs GPU et des cœurs x86.
En face, Nvidia propose sa baie DGX uniquement refroidie à l’eau qui contient 18 serveurs dotés chacun de quatre GPU et d’un processeur Grace. Si l’on prend les chiffres que Nvidia donne pour la configuration dotée de B300, cette baie atteindrait une vitesse de 1,1 Exaflops et totaliserait 20,7 To de mémoire HBM3e.
Une conception en sandwich
Dans le détail, le MI350X est un véritable sandwich de semiconducteurs, comme ses prédécesseurs MI300X et MI325X, comme les derniers processeurs Epyc. Le fabricant parle de chiplet.
« L’intérêt de cette répartition en huit circuits XCD est qu’il est possible de fractionner le MI350X en autant de partitions autonomes. »
Alan SmithSr. Fellow, Instinct SOC chief architect, AMD
La puce comprend 32 nouveaux cœurs CDNA 4. Ils sont répartis en huit circuits XCD de quatre cœurs gravés avec une finesse de 3 nm. Chaque circuit XCD comprend le cache L2 des cœurs (4 Mo partagés) et un bus de 16 canaux cumulant une bande passante de 1 To/s vers un bloc de mémoire HBM3e de 36 Go. Au total, AMD parle d’une bande passante globale de 8 To/s vers 288 Go de mémoire HBM3e.
« L’intérêt de cette répartition en huit circuits XCD est qu’il est possible de fractionner le MI350X en autant de partitions autonomes. Par exemple, vous pouvez exécuter en même temps huit LLM de 70 milliards de paramètres chacun, sans que l’activité des uns interfère sur celle des autres. C’est un avantage indéniable sur un serveur qui partage sa puissance de calcul entre plusieurs applications d’inférence. Et cela fonctionne avec ou sans virtualisation des applications », argumente Alan Smith, l’ingénieur en chef de l’architecture.
Quatre circuits XCD sont regroupés sur un socle IOD (« I/O Die », ou circuit d’entrées-sorties) dont la fonction est d’assurer les communications via des liens gravés en 6 nm. Au milieu du MI350X, les deux circuits IOD sont reliés via un bus central dont la bande passante est de 5,5 To/s. Aux bords, les circuits IOD ont chacun quatre contrôleurs AMD Infinity Fabric de quatrième génération, soit huit au total dans la puce. Ces contrôleurs ont chacun une bande passante de 153,6 Go/s vers l’extérieur, via 16 canaux.
Sept de ces contrôleurs permettent à un MI350X de communiquer avec ses sept congénères installés dans le même serveur. Le huitième, bridé à 128 Go/s, sert à communiquer sur 16 canaux PCIe 5.0 avec le serveur hôte. Sans doute qu’un MI350X sera aussi capable de communiquer directement par ce biais avec des cartes réseau. Car il y a bien la volonté, comme chez Nvidia, de lire directement les données en provenance d’une baie de stockage ou d’un autre nœud de calcul, sans passer par le processeur hôte.
Une troisième couche, le socle, porte à sa surface les huit circuits de mémoire HBM3e et connecte, en dessous, la puce à un chiplet qui s’enfiche dans un socket du serveur. « Notez que nous avons disposé une mémoire cache de 32 Mo devant chaque bloc de mémoire HBM3e, soit un cache total de 256 Mo vers cette mémoire. Plus précisément, le socle est gravé avec 128 canaux de communications entre les circuits IOD et les circuits HBM3e, et chacun de ces canaux est interfacé avec 2 Mo de cache », précise Alan Smith.
Des cœurs deux fois plus rapides, mais juste pour l’IA
« Notre objectif était de multiplier par deux la performance des cœurs sans doubler leur consommation électrique. »
Alan SmithSr. Fellow, Instinct SOC chief architect, AMD
Concernant les cœurs CDNA 4 eux-mêmes, chacun est composé de huit unités de calcul, soit 256 sur la totalité de la puce.
« Notre objectif était de multiplier par deux la performance des cœurs sans doubler leur consommation électrique. D’une part, leur meilleure finesse de gravure nous permet de les faire fonctionner à une fréquence moins élevée pour des performances individuelles similaires à celles des précédents cœurs CDNA 3. D’autre part, des optimisations dans le design du circuit nous font consommer moins de cycles pour adresser plus de mémoire », explique Alan Smith.
Selon lui, le MI350X serait globalement 50 % plus rapide que le MI300X. Mais si l’on regarde de plus près les chiffres, il n’irait en réalité pas plus vite sur les opérations vectorielles en 16, 32, ou 64 bits, qui sont utilisées dans les supercalculateurs. Il serait en revanche deux fois plus performant sur les opérations matricielles en 4, 8 et 16 bits (et 6 bits, donc) utilisées par les applications d’intelligence artificielle. Et la seule raison à cela est qu’un cœur CDNA 4 dispose d’autant d’unités de traitement vectoriel que précédemment et de deux fois plus d’unités matricielles.
ROCm 7 et Pollara 400 pour fluidifier les données
AMD compte aussi beaucoup sur l’optimisation logicielle apportée par sa nouvelle plateforme logicielle ROCm 7.
« En moyenne, une IA compilée par vLLM, LLM-d ou SGLang, en utilisant les bibliothèques de ROCm 7 sera 3,5 fois plus rapide en inférence qu’elle ne l’était avec ROCm 6 », argumente Anush Elangovan, qui dirige l’ingénierie logicielle des GPU.
Outre permettre de préparer des LLM avec une précision de 6 bits – et servir à compiler les applications d’IA générative pour qu’elles utilisent ce format –, ROCm 7 implémente pour la première fois l’équivalent du GPUdirect de Nvidia. Grâce à ce pilote, les GPU pourront communiquer entre eux sur le réseau, d’un serveur de calcul à l’autre, sans passer par le goulet d’étranglement du GPU.
Cette fonctionnalité sera épaulée par la carte réseau Pollara 400, lancée en fin d’année dernière, avec la puce DPU Pensando en guise de contrôleur et une connectique Ethernet 400 Gbit/s. L’intérêt de cette carte, entretemps renommée Pollara 400 « AI », est qu’elle implémente le protocole Ultra-Ethernet, équivalent standardisé du protocole propriétaire Spectrum-X de Nvidia.
« Nous avons mesuré que notre configuration accélérait de 20 % les communications […]. C’est-à-dire que nous sommes même 10 % plus rapides que les cartes réseau de Nvidia. »
Anush ElangovanVice-Président, AI Software, AMD
Ces protocoles ont le mérite de communiquer sans perte de paquet et avec une gestion proactive des goulets d’étranglement. Ces deux caractéristiques autorisent l’envoi d’un flux de données en rafale, lequel est nécessaire pour que les données puissent directement entrer dans la mémoire du MI350X, sans passer par de multiples étapes de décodage Ethernet au niveau des processeurs du serveur. Mais encore fallait-il avoir les pilotes fournis avec ROCm 7 pour que ce soit possible.
« Le point important est que ROCm 7 sait équilibrer les fonctions de la manière la plus optimale possible quand vous avez des puces AMD du sol au plafond. Nous avons mesuré que notre configuration accélérait de 20 % les communications, comparativement à une carte réseau Ultra-Ethernet dotée du DPU Thor2 de Broadcom. C’est-à-dire que nous sommes même 10 % plus rapides que les cartes réseau de Nvidia », dit Anush Elangovan.
Via la couche de routage UALink (alias Ultra Accelerator Link), ROCm serait en mesure de répartir les calculs d’un même traitement sur 1024 GPU, alors que la couche NVLink 5.0 similaire chez Nvidia ne gère qu’un maximum de 576 GPU.
Et en 2026, le MI400
Le prochain GPU MI400 devrait être lancé en 2026. Il sera accompagné d’une carte réseau Vulcano offrant une bande passante de 800 Gbit/s, via 16 canaux PCIe 6.0 et du processeur Epyc 9006.
AMD prédit déjà qu’une baie de 72 GPU MI400, citée sous le nom de code « Helios » atteindra 2,9 Exaflops en 4 bits, 1,45 EFlops en 8 bits et qu’elle contiendra 31 To de mémoire HBM4 pouvant lire les données à la vitesse de 1,4 Po/s.
Le GPU MI400X en lui-même aura une puissance de 40 Pflops en 4 bits, 20 Pflops en 8 bits, qu’il aura 432 Go de mémoire HBM4 (avec une bande passante de 19,6 To/s) et qu’il communiquera avec d’autres GPU à la vitesse de 300 Go/s.