Cet article fait partie de notre guide: Processeurs : les puces Intel, AMD et ARM de 2023

Processeurs : AMD lance les nouveaux Epyc 9004

La quatrième génération de processeurs Epyc pour serveurs offre jusqu’à 96 cœurs par socket et bientôt 128.

Il n’aura pas fallu attendre longtemps. Quinze jours après l’annonce officielle des Xeon Sapphire Rapids par Intel, son concurrent AMD vient de détailler ses nouveaux Epyc 9004, connus jusqu’ici sous le nom de code Genoa (présenté en photo ci-dessus, par la PDG d'AMD, Lisa Su). En substance, ce sont les premiers processeurs x86 gravés avec une finesse de 5 nm, ce qui leur permet de condenser un nombre record de cœurs : 96, soit l’équivalent de 192 machines virtuelles par socket.

Une telle quantité de cœurs permet de surcroît d’atteindre des caractéristiques épatantes : 6 To de RAM par socket via 12 canaux DDR5, 128 canaux PCIe 5.0 et, on n’en était pas encore sûr, le support de CXL 1.1. Ce dispositif, disponible sur 64 canaux, permet de profiter de la vitesse des bus PCIe 5.0 (deux fois plus rapides que les actuels PCIe 4.0) pour aller chercher de la RAM ou des GPU en dehors du serveur. Les hébergeurs de cloud seraient aux anges : le CXL venant avec un protocole réseau, il doit leur permettre d’assembler des pools de RAM ou de GPUs distribuables entre tous les serveurs.

Un mot sur la mémoire DDR. La DDR4 précédente supportait des fréquences allant de 800 MHz à 1,6 GHz, soit des débits échelonnés entre 1,6 et 3,2 Gbits par canal sur un bus 64 bits (+8 bits de parité). La nouvelle DDR5 supporte des fréquences de 1,6 à 4,2 GHz, soit des débits de 4,8 à 8,4 Gbit/s par canal sur deux bus 32 bits (plus 8 bits de parité par bus). Accessoirement, les barrettes de mémoire DDR5 doivent consommer 1,1 volt, contre 1,2 volt précédemment.

Concernant la quantité de canaux PCIe, les 128 disponibles peuvent donc servir à construire des serveurs de calcul avec 8 GPUs (insérés dans autant de slots x16) ou de stockage avec 64 SSD NVMe (avec des modèles x4 insérés les slots x2 d’un contrôleur et dans les slots x2 d’un contrôleur redondant).

Pour autant, les bénéfices de la gravure en 5 nm ne sont pas évidents. Le modèle comportant 96 cœurs, le 9654, consomme plus d’énergie que le précédent modèle haut de gamme en 64 cœurs, soit 360 watts en moyenne contre 280 auparavant. Et le nouvel Epyc 9534, qui ne comporte que 64 cœurs, consomme autant.

Une conception en chiplet qui perdure

Dix-huit modèles ont été présentés. Ils vont d’un Epyc 9124 à 16 cœurs, cadencé de 3 à 3,7 GHz (de 200 à 240 watts) à l’Epyc 9654, donc, dont la fréquence fluctue entre 2,4 et 3,7 GHz (de 320 à 400 watts) selon l’utilisation. En passant par un Epyc 9454 à 48 cœurs, cadencé entre 2,75 et 3,8 GHz (de 240 à 300 watts). Le plus petit modèle coûte environ 1 000 $, le plus gros 12 000 $ et le modèle intermédiaire est affiché à un peu plus de 5 000 $.

Avant la génération suivante, dont le nom de code est Turin et qui sera basée sur des cœurs Zen 5, les nouveaux Epyc devraient connaître trois évolutions intermédiaires : Bergamo, Genoa-X et Siena. Il s’agira notamment de porter le nombre de cœurs jusqu’à 128.

Photo de l'AMD Epyc 9004
Le processeur est équipé de plusieurs circuits CCD de 8 coeurs Zen 4 chacun.

Comme sur les générations précédentes, les Epyc 9004 sont des « chiplets », c’est-à-dire un assemblage a posteriori de plusieurs circuits de processeurs (ici appelés « CCD ») qui comprennent chacun plusieurs cœurs Zen 4. Les CCD sont eux-mêmes un assemblage puisque, si les cœurs Zen 4 situés sur les côtés sont bien gravés en 5 nm, leur logique d’interconnexion au centre (qui comprend également les contrôleurs vers les bus PCIe et DDR) est, semble-t-il, gravée sur une chaîne plus ancienne ou plus économique en 7 ou 6 nm.

Les circuits CCD sont exactement les mêmes que ceux qui équipent les Ryzen 7000, les derniers processeurs d’AMD pour PC : une mémoire cache L3 de 32 Mo, entourée de 8 cœurs dont plusieurs peuvent ne pas être fonctionnels. En effet, pour des raisons de production – surtout en début de carrière – des circuits peuvent être incorrectement gravés dans la circonférence du wafer. Au regard des questions de rentabilité, il est préférable de les identifier et de les désactiver après les avoir assemblés avec leurs voisins, plutôt que les chercher en amont pour les séparer de leurs voisins.

Ainsi, c’est la quantité de mémoire cache L3 qui sert plus justement à indiquer comment sont conçus les différents modèles. Par exemple, on trouve en entrée de gamme deux modèles à 16 cœurs, l’un avec 64 Mo de cache (9124) et l’autre avec 256 Mo (9124F). Le premier contient deux CCDs complets, tandis que le second dispose de huit CCDs comprenant chacun deux cœurs actifs et six cœurs désactivés.

Outre la plus grande quantité de cache, ce principe permet aussi de grimper dans les fréquences : le 9124 F varie de 4,1 à 4,4 GHz par cœur, contre 3 à 3,7 GHz pour le 9124 tout court. Revers de la médaille, le modèle avec un F à la fin coûte près de quatre fois plus cher que l’autre et consomme 50 % d’énergie en plus.

Les quantités de cœurs par CCD et le nombre de CCDs conduisent ainsi AMD à proposer 14 variantes, auxquelles s’ajoutent quatre déclinaisons de modèles existants vendues pour les serveurs à double socket.

Des cœurs plus rapides à fréquence égale

Enfin, les nouveaux cœurs Zen 4 sont censés, à fréquence égale, être au moins 14 % plus rapides que les précédents Zen 3. Leur apport est notamment un cache L2 qui passe de 512 Ko à 1 Mo et leur plus grand nombre de registres (224 entiers contre 192 et 192 à virgule flottante contre 160), l’ensemble permettant d’éviter plus souvent les temps de latence avec la mémoire.

« Sur des algorithmes classiques, nous nous attendons à observer des performances environ 55 % meilleures par cœur comparativement à la génération précédente », estime Xiantao Zhang, le directeur général du fournisseur de cloud public Alibaba Cloud.

On y trouve aussi un nouveau circuit d’accélérations mathématiques, l’AVX-512 qui, s’il est utilisé dans le code des applications, raccourcit par 3 ou 4 les temps d’exécution des algorithmes de comparaison et de transformation de données.

« Nos tests indiquent une croissance des performances qui va de 1,6 à 3,2 fois plus de rapidité », commente pour sa part Eric Lequiniou, directeur du prestataire en logiciels de supercalculs Altair Radioss.

Pour approfondir sur Processeurs et composants

Close