Super Computing’23 : Intel présente ses dernières super puces

Intel est parvenu à classer un supercalculateur encore incomplet au second rang du Top500, grâce à ses tout derniers processeurs Xeon Max et GPU Max 1550.

À l’occasion du salon Super Computing 2023 qui s’est tenu cette semaine aux USA, Intel a pu faire la démonstration de ses puces les plus puissantes, à savoir le processeur Xeon Max, ainsi que ses GPU Max 1550 (alias Ponte Vecchio) et Gaudi 2 (alias Habana). Intel a aussi annoncé leurs prochaines générations : le processeur Xeon Granite Rapids et le GPU Falcon Shores.

Les puces Xeon Max, GPU Max et Gaudi2 ont toutes en commun d’intégrer la RAM du serveur dans leurs propres circuits, sous la forme d’une mémoire HBM. Les modèles actuels sont tous gravés en 10 nm.

Ces annonces ont eu lieu dans le cadre de la publication du dernier Top500, le palmarès des 500 supercalculateurs les plus puissants du monde. La machine la plus rapide reste le Frontier, de l’université américaine d’Oak Ridge (Tennessee), basée sur 68 000 serveurs AMD Epyc de 128 cœurs chacun.

Mais Intel a réussi à faire entrer l’Aurora, le tout nouveau supercalculateur du centre de recherche américain Argonne (Illinois) directement à la seconde place. L’Aurora est aujourd’hui basé sur 12 000 serveurs HPE, précisément dotés des derniers Xeon Max (modèle 9470) et GPU Max 1550.

Le fait est que l’Aurora n’est pas encore entièrement déployé. Intel prédit qu’il remportera la première place lorsque tous les serveurs prévus auront été installés.

Xeon Max, le processeur qui intègre 64 Go de RAM

Le summum des processeurs Xeon est désormais le Xeon Max 9480. Il correspond à un Xeon 8480 avec 56 cœurs (quatre circuits de 14 cœurs), mais qui intégrerait en plus 64 Go de RAM HBM dans sa puce (quatre circuits de 16 Go chacun). Sa mémoire cache est également un peu supérieure, avec 112,5 Mo au lieu de 105 Mo. Pour se maintenir dans la même enveloppe énergétique de 350W, le Xeon Max 9480 oscille en 1,9 et 3,5 GHz, alors que le 8480 fonctionne de 2 à 3,8 GHz selon les charges de calcul.

Il existe quatre autres versions de Xeon Max. Toutes fonctionnent au maximum à 3,5 GHz, toutes ont 64 Go de RAM HBM et toutes consomment 350W. Leurs différences tiennent à un nombre de cœurs inférieur au profit d’une fréquence de base plus élevée. Le 9470 a 52 cœurs et démarre à 2 GHz, tandis que le 9460 n’a que 32 cœurs, mais démarre à 2,7 GHz, par exemple.

La prochaine génération des Xeon, dite Granite Rapids, attendue pour 2024, devrait être globalement 40% plus rapide que la génération actuelle (dite Sapphire Rapids) sur les calculs intensifs et 2,9 fois plus rapide sur les applications courantes. Elle intégrera trois circuits de 28 cœurs (soit 84 cœurs), chaque cœur étant doté de 2 Mo de cache L2 et 4 Mo de cache L3.

La particularité de cette prochaine génération est qu’elle pourra utiliser des barrettes mémoire d’un nouveau genre, les MCR (développée avec SK Hynix). Elles seraient deux fois plus rapides que des barrettes DDR5 conventionnelles. L’utilisation de ces barrettes explique le gain de vitesse sur les applications courantes.

Les Xeon Granite Rapids géreront 144 canaux PCIe 5.0, ainsi que le protocole CXL 2,0 qui permet de mettre en réseau toute extension PCIe (un SSD NVMe, un GPU, mais aussi de la RAM). Intel estime que certains serveurs pourront intégrer jusqu’à huit processeurs Xeon Granite Rapids (soit 672 cœurs dans, sans doute, 4U).

GPUs : 3,28 To par seconde pour le HPC, 24 flux 100 Gbit/s pour l’IA

Dans la famille des GPU Max, conçus pour le supercalcul, Intel a présenté le nouveau modèle 1550. Il dispose de 1 024 cœurs Tensor (addition/multiplication sur des matrices), de 128 cœurs de rendu Intel Xe-HPC (utilisées dans les algorithmes de simulation) et de 128 Go de RAM HBM. Son fonctionnement oscille entre 900 MHz et 1,6 GHz, pour une consommation de 600W au maximum. Il communique via 16 canaux PCIe 5.0 avec son serveur hôte et peut traiter 3,28 To/s.

Comparativement, le précédent modèle 1100 (lancé au début de l’année) n’était doté que de 48 Go de RAM HBM et ne pouvait traiter que 1,23 To/s.

De son côté, le GPU Gaudi 2 est plus particulièrement conçu pour entraîner des modèles en Machine learning et pour l’inférence, à savoir l’exécution d’un modèle préentraîné sur des données d’entreprise. La différence fonctionnelle entre le GPU Max et le Gaudi 2 est que le premier doit être capable de générer énormément de résultats à parti d’un jeu de données réduit, alors que le second fait l’inverse : il synthétise des modèles à partir d’un énorme jeu de données.

Le Gaudi 2 dispose de 24 cœurs Tensor Processor et de deux circuits MME pour la multiplication des grandes matrices. On y trouve 48 Mo de SRAM (qui fait office de cache) et 96 Go de RAM HBM.

La puce communique avec son serveur hôte au moyen de 16 canaux PCIe 4. Elle peut aussi envoyer ou recevoir directement 24 flux de données en 100 Gbit/s sur un réseau Ethernet RoCE (soit un total d’environ 240 Go/s). Cette capacité de communication est censée permettre l’interconnexion directe des GPUs dans un cluster. Mais aussi la lecture directe des données depuis des NAS.

Gaudi 2 et GPU Max 1550 sont disponibles via des cartes SuperMicro et Dell au format OAM, un nouveau standard pour les supercalculateurs et qui consiste en une carte Mezzanine comprenant quatre ou huit GPUs.

En 2024, le Gaudi 2 sera remplacé par le Gaudi 3 qui intégrera 144 Go de RAM HBM et pourra communiquer en réseau 48 flux de données en 100 Gbit/s.

En 2025, le GPU Falcon Shores réunira les circuits d’inférence de la famille Gaudi avec les circuits d’accélération de la famille GPU Max. Il sera doté de 288 Go de RAM HBM pour une bande passante interne de 9,8 To/s. Plus que de l’Ethernet, la puce saura communiquer avec l’extérieur en CXL, c’est-à-dire sur un réseau PCIe, à la vitesse de 64 Go/s par lien.

Pour approfondir sur Processeurs et composants

Close