Processeurs : Intel livre son nouveau Xeon 6P aux entreprises
Après avoir fourni les versions 6E – économes en énergie – aux hyperscalers l’été dernier, le fondeur propose aux fabricants de serveurs un nouveau Xeon, avec deux fois plus de cœurs, deux fois plus performant et aussi deux fois plus cher.
Avec le processeur Xeon 6P « Granite Rapids », qu’il commence à livrer aux fabricants de serveurs après en avoir parlé pendant des mois, Intel ambitionne d’arrêter de perdre des parts de marché dans le datacenter au profit de son concurrent AMD. Son argument principal est de fournir, lui aussi, un très grand nombre de cœurs et beaucoup de mémoire cache, ce qui permet de réduire la quantité de serveurs dans un data center et, donc, ses coûts en énergie.
Selon les analystes, l’intérêt des Xeon précédents par rapport aux AMD Epyc était que les puces d’Intel étaient livrées en plus grande quantité. Comprendre avec moins d’indisponibilité que le processeur concurrent, lequel bataille systématiquement contre Apple et Nvidia pour se faire une place sur les chaînes des usines de TSMC, leur fabricant commun.
L’intérêt de ce nouveau Xeon, lui, serait un retour au design innovant. Pêle-mêle, on note une architecture en « chiplet », des gravures très fines et des interconnexions plus rapides qu’ailleurs entre les circuits, pour des configurations qui devraient être plus versatiles. Bref, avec cette sixième génération, le Xeon ne serait plus un choix par défaut.
Concernant les performances générales des modèles 6900P, Intel communique des chiffres : avec deux fois plus de cœurs que les Xeon 5 haut de gamme, les Xeon 6P seraient 2 fois plus performants sur le tout venant des applications et jusqu’à trois fois plus performants sur les algorithmes d’IA générative (Intel prend en exemple des algorithmes d’inférence sur le LLM Llama2-7B).
Les unités d’accélération mathématiques AMX et AVX-512 intégrées à chaque cœur multiplieraient par 2,71 l’indexation des données dans une base vectorielle et par 7,34 leur recherche comparativement à du code exécuté par le jeu d’instruction x86 de base. En utilisant toutefois des bibliothèques SVS dans le code des applications d’IA générative.
Une première série de modèles très haut de gamme
Détaillé depuis au moins un an, au risque de saper la promotion du Xeon 5, lancé au début de cette année, le Xeon 6 se décline en deux familles. La version « Sierra Forest » est livrée depuis cet été aux hyperscalers pour exécuter des applications web-native en containers. Elle est constituée de 144 cœurs « E-Core » très économiques en énergie. Ils sont dépourvus de circuits AVX-512 et AMX accélérant les fonctions mathématiques les plus complexes et de la capacité d’exécuter deux flux d’instructions simultanément. On sait à présent que cette première série de Xeon 6700E sera bientôt complétée par une série Xeon 6900E qui offrira, elle, la quantité record de 288 cœurs.
La seconde famille, celle qu’Intel lance aujourd’hui pour équiper les serveurs des entreprises est constituée 128 cœurs « P-Core » performants. Eux ont toutes les options, notamment celles qui accélèrent les traitements d’IA générative. La version lancée ces jours-ci est numérotée 6900P, car, à l’instar du 6900E, elle devrait consommer 500 W par puce. Intel devrait lancer en 2025 une version 6700P avec 96 « P-Core » qui consommera, comme l’actuel Xeon 6700E, 350W par puce.
Le modèle 6900P est constitué de trois circuits, contenant chacun 48 cœurs. Le modèle 6700P n’aura que deux de ces circuits. Intel évoque l’arrivée future d’une version ne contenant qu’un seul circuit de 48 cœurs (sans doute numérotée 6500P) et même une version dotée d’un circuit raccourci avec seulement 16 cœurs (6300P ?). Les variantes de ces designs sont respectivement appelées UCC (Ultra Core Count), XCC, HCC et LCC (Low Core Count). La version la plus petite ne consommerait que 150 W par puce.
Précisons que le nombre de cœurs indiqué correspond à la quantité de cœurs effectivement gravés, mais, comme il est d’usage dans les semiconducteurs, pas nécessairement au nombre de cœurs fonctionnels. Comme AMD, Intel décline les circuits qui ne passent pas tous les tests en des versions avec moins de cœurs fonctionnels, moins chères, mais pas forcément moins énergivores. En effet, le fondeur a pris la décision de compenser la réduction du nombre de cœurs par une augmentation de leur fréquence.
Intel prévoit ainsi les déclinaisons suivantes :
- 6980P : 128 cœurs fonctionnels exécutant 256 threads, cadencés entre 2 et 3,2 GHz,
- 6979P : 120 cœurs fonctionnels exécutant 240 threads, cadencés entre 2,1 et 3,2 GHz,
- 6972P : 96 cœurs fonctionnels exécutant 192 threads, cadencés entre 2,4 et 3,5 GHz,
- 6960P : 72 cœurs fonctionnels exécutant 144 threads, cadencés entre 2,7 et 3,8 GHz
- Et 6952P : également 96 cœurs fonctionnels exécutant 192 threads, mais sous-cadencés entre 2,1 et 3,2 GHz pour ne consommer que 400 W, soit 100 W de moins que les autres.
Les prix annoncés sont très haut de gamme : de 8 000 dollars pour le 6960P à près de 25 000 dollars pour le 6980P. Les modèles haut de gamme de la génération précédente, celle du Xeon 5, s’échelonnent entre 6 000 dollars pour le Xeon 8562Y+ (32 cœurs, 64 threads à 2,8 GHz) et 11 600 dollars pour le Xeon 8592+ (64 cœurs, 128 threads à 1,9 GHz).
Il est notable qu’Intel n’annonce pas un maximum de 96 cœurs fonctionnels sur la future version 6700P, mais uniquement 86. On ignore pourquoi. Sur la version précédente, Intel avait pareillement annoncé que le Xeon 5 aurait un maximum de 56 cœurs fonctionnels, avant de se raviser un peu plus tard en présentant discrètement une version avec l’intégralité des 64 cœurs fonctionnels. Gageons qu’il s’agit pour le fondeur d’être prudent avec le succès de ses processus industriels encore en rodage.
Mieux que l’Epyc 9004, sauf sur la consommation
L’une des grandes nouveautés des Xeon 6 est en effet que les circuits contenant les cœurs sont gravés par la toute nouvelle chaîne industrielle « Intel 3 » du fondeur avec une finesse, nous dit-on, de 5 nanomètres. Elle serait aussi efficace en termes de résistance électrique (c’est-à-dire de dissipation thermique et de consommation d’énergie) que la gravure en 3 nm dont AMD va bénéficier pour sa prochaine génération « Turin » de processeurs Epyc (sans doute dévoilée la semaine prochaine).
Dans les faits, comparativement à la précédente génération de Xeon, le nombre de cœurs gravés est multiplié par deux, tandis que la consommation d’énergie n’est multipliée que par 1,4.
Cela dit, si l’on compare avec les actuels processeurs Epyc 9004 haut de gamme d’AMD, de 64 à 96 cœurs, leurs consommations s’échelonnent de 280 à 400 W. C’est mieux. AMD propose également deux Epyc 9004 en 128 cœurs depuis cette année et dont la consommation plafonne à 360 W. Cependant, ces processeurs ont moins de cache (256 Mo contre 1 152 Mo pour celui à 96 cœurs) et l’un d’eux n’exécute qu’un thread par cœur, soit l’équivalent d’un modèle 64 cœurs.
Dans les Xeon 6, les circuits contenant les cœurs intègrent chacun quatre contrôleurs de mémoire DDR5. Ceux-ci prennent en charge les nouveaux modules de mémoire MRDIMM développés par Micron et qui seraient 1,6 fois plus rapides que des barrettes de DDR5 ordinaires. On y trouve également une mémoire cache de 504 Mo. Les Xeon 5 haut de gamme en 64 cœurs culminaient à 320 Mo de cache et ceux en 32 cœurs à 160 Mo de cache.
Sur la puce, se trouvent aussi deux autres circuits, gravés avec une précision de 10 nm (chaîne « Intel 7 »), qui contiennent les contrôleurs de bus PCIe 5.0. Ces derniers donnent accès à 136 voies PCIe sur les serveurs mono-socket, mais ce nombre tombe à 96 voies si le serveur contient deux, quatre ou huit sockets.
Pour mémoire, un GPU consomme seize liens PCIe 5.0 et un SSD NVMe en consomme actuellement deux, ou quatre s’il agit d’une nouvelle génération en NVMe 2.0. 64 voies PCIe sont utilisables en CXL 2.0, une sorte de réseau ultrarapide qui permet de placer les cartes d’extension, les SSD NVMe et même la RAM du serveur sur une machine distante. Le Xeon 5 et l’actuel AMD Epyc 9004 ne prennent en compte que le protocole CXL 1.1 qui ne fonctionne bien qu’avec des SSD NVMe distants.
Au côté des contrôleurs PCIe se trouvent des accélérateurs censés fluidifier le décodage des données empaquetées dans un protocole. Toutefois, Intel ne dit pas que ces accélérateurs peuvent se substituer à de véritables DPU (qu’Intel appelle IPU) qui restent notamment utiles pour gérer les communications sur des réseaux RoCE (RDMA-over-Converged Ethernet). Ces derniers s’avèrent de plus en plus nécessaires pour communiquer avec des baies de stockage haute vitesse dans le cadre d’applications d’IA.