IBM commercialise ses serveurs Unix Power11

Bien que plus économes en énergie, les quatre machines présentées rappellent furieusement celles de la génération précédente dans leur format et leurs détails techniques. Elles accepteront bientôt la carte d’accélération d’IA Spyre, déjà présentée sur les mainframes.

IBM fait passer sa gamme de serveurs Unix en génération Power11. Électroniquement parlant, les quatre nouvelles machines ont des caractéristiques techniques assez identiques aux quatre serveurs Power10 haut et milieu de gamme qu’elles remplacent : le format, le nombre de processeurs et la quantité de RAM sont les mêmes. En revanche, les options et les fonctions sont plus nombreuses.

Ainsi, le nombre de cœurs utilisables par processeur grimpe à 30 (20 ou 24 sur les modèles précédents). Ces nouvelles machines pourront également être dotées des cartes accélératrices Spyre, pour l’inférence d’IA. Ce sont les cartes qu’IBM propose déjà sur sa dernière génération z17 de mainframes. Un dispositif Power Cyber Vault, certifié conforme aux exigences NIST, promet de détecter et de bloquer des malwares en moins d’une minute. Et puis le système d’auto-diagnostic est désormais appuyé sur une IA qui rend la maintenance plus proactive et réduit d’autant les temps d’arrêt.

Les serveurs Power d’IBM sont des machines utilisées par les très grands comptes (industriels…), généralement pour exécuter des bases de données SAP Hana ou Oracle sous l’Unix AIX, des applications standards dans des machines virtuelles Linux, ou encore de l’IA générative via la multitude d’environnements Watson ainsi que les antiques applications AS/400, tous deux sous l’OS propriétaire System i.

La particularité de ces serveurs est de ne pas utiliser de processeurs x86, mais des processeurs Power censés offrir deux fois plus de performances par watt. Les machines sont également conçues pour être particulièrement tolérantes aux pannes, avec des cœurs redondants (les processeurs Power ont plus de cœurs que ceux utilisables) et des circuits spécialisés dans la maintenance automatique en temps réel. Toute la virtualisation repose sur l’hyperviseur d’IBM, PowerVM, lequel consacre des cœurs physiques entiers à ses VM.

Quatre serveurs Power11, en attendant les modèles d’entrée de gamme

Dans le détail, on retrouve sur les processeurs Power11 le dispositif qui permet soit d’exécuter quatre Threads par cœur, soit huit Threads, mais en divisant par deux le nombre de cœurs. Dans les deux cas, il s’agit de la même puce, mais une configuration ou l’autre est verrouillée par le firmware.

IBM explique qu’une configuration avec beaucoup de cœurs et quatre Threads par cœur est préférable pour les applications complexes qui multiplient les fonctions différentes en parallèle. Alors qu’une configuration avec 8 Threads par cœur, pour un nombre réduit de cœurs, favorise plutôt les applications simples auxquelles elle permet de traiter plus de données en parallèle.

Seule la machine très haut de gamme E1180, qui succède à l’E1080, est configurée pour exécuter huit Threads par cœur. Il s’agit d’un serveur 4U avec 16 To de RAM et quatre processeurs de 10, 12 ou 16 cœurs chacun. Cette machine est aussi la seule qui soit assemblable en un cluster de quatre serveurs (totalisant 64 To de RAM et 256 cœurs et 2 048 threads). 

La machine E1150 est identique à la précédente, si ce n’est qu’elle est configurée en mode 4 Threads/cœur et que ses quatre processeurs ont donc chacun 16, 24 ou 30 cœurs. L’arithmétique ne tombe pas juste, mais c’est normal, car d’autres cœurs existent dans le processeur et ils ne sont activés qu’au cas où un cœur utilisable aurait un problème.

Précisons que moins le nombre de cœurs est élevé, plus leur fréquence est importante. En 16 cœurs, le Power11 oscille entre 3,4 et 4,2 GHz. En 24 cœurs, ce sera entre 3,05 et 4,15 GHz. En 30 cœurs, ce sera entre 2,8 et 3,95 GHz.

Le serveur milieu de gamme S1124 a toujours un format 4U, mais uniquement deux processeurs, également en 16, 24 ou 30 cœurs capables d’exécuter chacun quatre threads. Sa capacité mémoire est de 8 To de RAM.

Le serveur S1122 est une version réduite du S1114 : ce serveur tient dans un format 2U. Il peut être livré avec des versions économiques du Power11. Ses deux exemplaires peuvent ainsi contenir soit 4 cœurs (de 3,6 à 4 GHz), soit 10 (de 3,05 à 4 GHz). Sa capacité mémoire est de 4 To de RAM.

Il est probable qu’IBM annonce dans un second deux autres serveurs. Ils remplaceraient les actuelles machines Power10 d’entrée de gamme : le S1014 (4U, un seul processeur) et le S1012 (2U, un seul processeur).

Plus économe en énergie, plus sécurisé, meilleur pour l’IA

Les différences entre les serveurs Power11 et Power10 sont à chercher à la loupe. Dans le processeur, les performances sur les calculs entiers en 8 bits et à virgule en 16 bits seraient doublées. Plus exactement, cette accélération devrait surtout se voir sur les applications qui font de l’inférence sur les modèles d’IA.

Autre amélioration, le marquage de la mémoire est une nouvelle fonctionnalité de cybersécurité, qui devrait éviter qu’un malware puisse saturer le cache d’une application afin de faire sauter son code dans la mémoire d’une autre tâche plus permissive en matière de droits d’accès.

Toujours à propos du processeur, la gestion des fréquences est plus souple, avec la possibilité de ne faire grimper qu’un quart des cœurs aux GHz maximums pour maintenir la consommation de la puce à 300 watts. Une valeur à comparer aux derniers processeurs x86 qui atteignent 600 voire 700 watts. Des benchmarks SPECint6580_rate produits par IBM semblent montrer que, en effet, à performance égale sur un traitement, un Power11 consomme deux fois moins d’énergie qu’un Xeon de sixième génération.

Cette économie d’énergie est également soutenue par le dispositif d’autodiagnostic qui est en mesure de demander au firmware de désactiver complètement des pans entiers du processeur si des cœurs sont inutiles. Cela réduirait la consommation du Power11 de 28 %, moyennant une baisse de 6 % du reste de ses cœurs, du fait de la désactivation de caches en commun.

Enfin, le processeur étant gravé avec une finesse de 5 nm dans les usines de Samsung, contre une finesse de 7 nm pour le Power10, il est censé intrinsèquement consommer un tout petit peu moins d’énergie. Cela dit, IBM semble plutôt avoir utilisé cette meilleure finesse pour améliorer les GHz sans consommer plus.

Concernant l’accélérateur Spyre, il n’arrivera en option qu’à la fin de l’année 2025. Cette puce comprend les mainframes 32 cœurs conçus pour exécuter très rapidement des fonctions matricielles et vectorielles en 4, 8 ou 16 bits. Ces fonctions sont nécessaires pour piocher des éléments de réponse dans un LLM, selon les valeurs numériques des tokens issus du prompt de l’utilisateur. La puissance est évaluée à 300 TOPS, soit trois fois mieux environ que les puces qui combinent NPU et GPU sur stations de travail dédiées à l’IA.

Présenté sous la forme d’une carte PCIe, l’accélérateur Spyre devrait embarquer 128 Go de RAM, ce qui permettrait d’utiliser des LLM de 100 milliards de paramètres codés en 8 bits, ou le double en 4 bits. La quantité de paramètres correspond à la base de connaissance du LLM et la résolution en bits à la précision de ces connaissances. Il sera a priori possible de cumuler plusieurs accélérateurs Spire dans le même serveur pour utiliser des LLM encore plus importants, plusieurs LLM complémentaires. Les accélérateurs Spyre peuvent communiquer entre eux à la vitesse de 200 Go/s.

Pour approfondir sur Unix (Risc et Itanium)