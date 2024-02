On n’attendait plus que lui. IBM, le pionnier de l’intelligence artificielle – son ordinateur Deep Blue champion d’échecs au début des années 90, son chatbot Watson qui gagne aux jeux télévisés en 2011… – lancera d’ici à la fin du mois une machine d’appoint pour faire de l’IA générative dans les laboratoires de recherche et les PME : le LinuxONE 4 Express.

Dernière déclinaison matérielle en date du mainframe Z16, Le LinuxONE 4 Express est facturé 135 000 dollars en version de base. Mais, à puissance comparable avec un cluster de serveurs x86 qui totalise 384 cœurs, la machine d’IBM coûterait 52 % moins cher au bout de cinq ans, parce qu’elle consommerait 75 % d’énergie en moins.

En vérité, la machine est aussi versatile qu’un cluster de serveurs x86. Mais IBM la positionne plus particulièrement sur le segment des équipements conçus pour l’IA générative, car sa faible consommation et la présence de circuits accélérant, là, l’inférence et, là, le chiffrement des données privées sont des caractéristiques particulièrement recherchées par les entreprises qui se lancent dans le déploiement de modèles préentraînés.

Une capacité de calcul optimisée pour éviter les latences À ce prix, le LinuxONE 4 Express contient trois processeurs Telum cadencés à 4,6 GHz, qui offrent chacun huit cœurs pour exécuter un maximum de seize machines virtuelles, ou « partition Linux ». La différence est que ces machines virtuelles peuvent répondre en même temps à des milliers de requêtes, alors qu’une VM x86 en traite classiquement moins d’une centaine. Des benchmarks suggèrent un rapport de 1 à 20 concernant la quantité de flux exécutés simultanément. Il faut dire que les processeurs Tellum se composent d’une multitude de circuits parallèles qui intègrent tout : le calcul, l’accélération pour l’inférence, le chiffrement de la mémoire, le contrôleur réseau qui communique en RoCE. On y trouve même un circuit qui accélère les codes écrits en Java. Surtout, conception mainframe oblige, il n’y a jamais que 16 cœurs qui fonctionnent en même temps dans la machine. Les autres servent à prendre le relais dans les moments de latence, de sorte qu’il n’existe jamais de temps mort. Un tel dispositif n’existe pas sur les serveurs x86. Dans ceux-ci, tous les cœurs sont mis à contribution pour exécuter des flux applicatifs. Et tant pis s’ils sont plusieurs à se tourner les pouces en attendant des transferts mémoire ou des entrées/sorties sur le réseau et le stockage. Chaque cœur du processeur Telum s’accompagne d’une mémoire cache de 32 Mo. La puce est gravée avec une finesse de 7 nm dans les usines de Samsung.