Salon Computex : Intel lance le Xeon 6+

Le nouveau processeur doté de 288 cœurs économes en énergie est la locomotive d’une série d’annonces qui ont pour ambition de replacer Intel au premier rang des fournisseurs de composants pour l’inférence.

Intel profite de l’événement Computex qui a lieu cette semaine à Taipei (Taiwan) pour crier haut et fort qu’il est de retour parmi les puces de pointe. Le fondeur lance la commercialisation du nouveau Xeon 6+, gravé dans ses dernières usines avec une finesse de moins de 2 nm (« Intel 18A ») et pouvant contenir jusqu’à 288 cœurs x86 Darkmont économes en énergie.

Il met aussi sur le marché une nouvelle génération de cartes réseau Ethernet, basée sur un contrôleur E835 inédit qui offre une bande passante de 200 Gbit/s pour un prix et une consommation électrique significativement inférieurs aux cartes Nvidia ou Broadcom. Il dévoile dans la foulée les détails du futur Xeon 7 « Diamond Rapids » et annonce l’arrivée prochaine de son GPU Crescent Island dédié à l’inférence.

Intel présente par ailleurs des baies de calcul, livrées prêtes à l’emploi, soit le même type de produit que les clusters de calcul DGX NVL72 que vend Nvidia. Dans ce cadre, Intel s’allie avec Foxconn pour la conception des serveurs de calcul autour de tous les produits cités ci-dessus. Pour l’heure baptisées Intelligence Center, ces baies pourraient être étendues avec des nœuds de calcul équipés de l’accélérateur d’inférence SN50 de SambaNova. Nvidia fait de même en proposant d’étendre ses clusters DGX avec des nœuds de calculs équipés de la puce Groq.

Tous ces nouveaux produits sont présentés par Intel comme des moyens de démocratiser l’IA agentique dans les datacenters des entreprises et permettre aux fournisseurs de cloud de proposer des services d’inférence moins chers à la consommation.

« Aujourd’hui, l’IA mobilise 23% des capacités de calcul des datacenters. En 2030, cette part passera à 50%. Mais le point le plus intéressant est qu’il s’agira plus exactement de 37% des capacités de calcul dédiées à l’inférence, alors que la part consacrée à l’entraînement des modèles tombera à 13% », dit Kevork Kechichian, le patron de l’activité datacenters chez Intel (en photo en haut de cet article), lors du keynote d’ouverture du fondeur au salon Computex. Ses chiffres proviennent d’une étude du cabinet JLL parue en début d’année.

En substance, Intel a raté le virage des GPU hautement performants qui a fait exploser ces dernières années le chiffre d’affaires de Nvidia, particulièrement grâce à la vente aux hyperscalers d’infrastructures capables d’entraîner des LLM. À présent que les principaux modèles d’IA sont bâtis, les GPU de Nvidia paraissent surdimensionnés, trop chers à l’achat et trop coûteux en énergie pour simplement faire de l’inférence, c’est-à-dire exécuter des LLM en direct, avec des agents ou sur des données personnelles.

Il y a donc un créneau pour une infrastructure d’IA bien plus rentable et Intel prétend être en mesure de prendre la tête de cette nouvelle compétition.

288 cœurs et 768 Go/s de bande passante mémoire

Dans le détail, le nouveau Xeon 6+ succède aux Xeon 6 « Sierra Forest », la première version du Xeon 6 qui, en 2024, était entièrement équipée de cœurs E-Core plus économes en énergie que les P-Core. La différence principale entre les deux types de cœurs est que les E-Core n’exécutent qu’un thread à la fois, alors que les P-Core en exécutent deux simultanément.

Le Sierra Forest avait un maximum de 144 cœurs et consommait 330W grâce à sa finesse de gravure « Intel 3 » qui correspondait à peu près à 5 nm. Avec ses 288 cœurs gravés en moins de 2 nm, le Xeon 6+ consomme à présent 450W. C’est moins que les 500 W de l’Epyc 9965 d’AMD qui n’a que 192 cœurs, mais qui peut, lui, exécuter 384 threads.

Il faudra attendre la publication de tests de performance officiels pour se faire une idée exacte, mais, sur le papier, le Xeon 6+ bat son prédécesseur et son concurrent en vitesse pure. Grâce à une mémoire cache de 576 Mo, contre 108 Mo sur le Xeon 6 Sierra Forest et contre 384 Mo sur l’Epyc 9965. Et grâce à un bus mémoire de 12 canaux qui supportent chacun un débit de 8000 MT/s, soit une bande passante totale entre le processeur et sa mémoire de 768 Go/s (à raison de 64 Go/s par canal).

La bande passante des 8 canaux 6400 MT/s du Xeon 6 Sierra Forest totalisait 409 Go/s et celle des 12 canaux 6400 MT/s de l’Epyc 9965 atteint 614 Go/s. Précisons un détail technique : 6400 MT/s par canal est la caractéristique de la mémoire DDR5. Intel parvient à atteindre 8000 MT/s grâce à l’utilisation de barrettes MRDIMM dans lesquelles il devient possible de lire deux rangées de cellules DRAM à la fois au lieu d’une. La vitesse est seulement 125% de celle d’origine, car la lecture de deux rangées est plus lente que celle d’une seule rangée.

Le Xeon 6+ supporte un peu plus de voies PCIe 5.0 que son prédécesseur, soit 96 au lieu de 88, mais n’atteint pas encore les 160 voies supportées sur l’actuelle génération de processeurs Epyc. Pour mémoire, un GPU haut de gamme occupe 16 voies, un GPU milieu de gamme (pour l’inférence) 8 voies et un SSD NVMe 4 voies.

Un processeur qui participe à l’inférence... de manière indirecte

Intel considère que son nouveau Xeon 6+ sera très important pour l’inférence, mais qu’il va jouer un rôle purement indirect. « L’une des principales applications de l’inférence à l’heure actuelle est la génération de code par une IA. Cette génération se fera par un GPU ; il est davantage fait pour cela qu’un processeur. En revanche, ce code il faut le tester. Et, cela, il n’y a que le processeur qui puisse le faire », dit Anil Nanduri, responsable des produits d’IA et de leurs utilisations en entreprise, lors d’un entretien privé.

Devant l’expression peu convaincue du MagIT, il argumente : « ne croyez pas que cela soit anecdotique ! Avec l’émergence de l’IA agentique, vous allez voir arriver de véritables usines de génération automatisée de code. L’IA génère, l’agent l’envoie au processeur pour test, il y a toujours des erreurs, l’agent demande à l’IA de corriger, puis relance un test. Puis on passe à la partie suivante du code. Et ainsi de suite. Ce sera un véritable ping-pong entre le processeur et le GPU ! »

« J’ai pris l’exemple de la génération de code, mais cela s’appliquera à tous les domaines : à chaque fois, il faudra lancer une application pour tester le résultat. En d’autres termes, à chaque fois qu’un agent sollicitera un GPU, il faudra solliciter le processeur. Et c’est quelque chose que les hébergeurs vont devoir prendre en compte », ajoute-t-il, en expliquant que ces hébergeurs voudront le processeur le plus rapide et le moins consommateur d’énergie pour s’articuler avec la vitesse d’un GPU et pondérer ce qu’il coûte en électricité.

Il résume : la moitié du pipeline de l’IA agentique s’exécutera sur des processeurs, à commencer par les agents eux-mêmes. Sans parler du RAG, dans lequel la base vectorielle qui contient les données de l’utilisateur n’est interrogeable que par un processeur.

Dans les faits, les fabricants de serveurs devraient lancer prochainement des nouvelles machines pour l’inférence qui devraient être basées sur huit GPU et deux processeurs Xeon 6+. Dans la nomenclature de Nvidia, ce type de configuration s’appelle DGX NVL8 et il existe déjà un design de référence pour ses derniers GPU Rubin. C’est important de le noter, car il s’agit à peu près de la seule architecture validée par Nvidia pour ses GPU Rubin qui ne fonctionne pas à partir de son processeur ARM Vera.

Le Xeon 7 arrivera en 2027

La prochaine étape concernant les processeurs sera le lancement du Xeon 7 « Diamond Rapids », a priori en 2027. Celui-ci sera composé à 100% de cœurs P-Core, mais sans hyperthreading, soit la possibilité d’exécuter deux threads simultanément. Ces cœurs seront en revanche dotés d’unités vectorielles qui les rapprocheront un peu plus des cœurs GPU que ne le sont les cœurs E-Core. Concrètement, les unités vectorielles permettent de se passer de GPU pour transformer des prompts et les documents d’appoint qui sont joints en tokens.

Dans les faits, l’hyperthreading est surtout utile en virtualisation, où il permet de lancer deux fois plus de VM qu’il n’y a de cœurs. Mais quand les applications exécutent beaucoup d’opérations mathématiques, comme en IA, son avantage est discutable.

Intel avait pareillement fait disparaître l’hyperthreading des cœurs P-Core dans ses avant-dernières générations de processeurs Core pour PC. En début d’année, lors du CES, le fondeur dévoilait néanmoins une nouvelle génération de processeurs Core Panther Lake où les cœurs retrouvaient l’hyperthreading. Il se dit que celui-ci reviendra aussi dans les cœurs du futur Xeon 8 « Coral Rapids ».

Toujours gravé avec une finesse un peu inférieure à 2 nm dans les usines d’Intel, le Xeon 7 devrait pouvoir contenir jusqu’à 192 cœurs. Ils seront raccordés à la RAM par 16 canaux DDR5, pour atteindre une bande passante d’environ 1,2 To/s. Cela dit, il est probable qu’une seconde génération de barrettes MRDIMM arrive sur le marché à ce moment-là et qu’elle permette d’atteindre 1,6 To/s.

D’ici à 2027, le concurrent AMD aura lancé sa prochaine génération de processeurs Epyc, la sixième, baptisée Venice. Elle devrait être présentée au public dès juillet prochain, lors de la conférence annuelle d’AMD qui se tiendra à San Francisco.

A priori, ce processeur gravé avec une finesse de 2 nm chez TSMC pourrait contenir jusqu’à 256 cœurs, soit 512 VM exécutables simultanément puisque l’hyperthreading est maintenu chez AMD. L’Epyc Venice devrait lui aussi communiquer avec sa RAM via 16 canaux DDR5, soit une bande passante de 819 Go/s, car AMD n’est pas encore compatible avec les barrettes MRDIMM.

Pour approfondir sur x86