La préproduction du Rhea 1 est lancée. D’ici à sept mois, un premier lot de ce processeur 100 % européen, qui doit servir à construire des supercalculateurs et des serveurs d’IA sans CPU américain, sortira des usines de TSMC. Il sera alors testé pour la première fois sur des cartes mères. Il s’agira de valider que sa consommation électrique, son bus de communication et ses logiciels fonctionnent aussi bien en situation réelle qu’ils le font déjà sur le simulateur.

« Ces tests ne devraient prendre que quelques semaines. Dès que nous aurons vérifié que tout est conforme à nos prévisions, la production des exemplaires pour nos clients pourra démarrer. Comme TSMC disposera déjà des wafers, le délai de fabrication devrait prendre cette fois moins de sept mois », explique Philippe Notton, le PDG de SiPearl, la startup née en 2019 pour concrétiser le projet du consortium European Processor Initiative.

L’objectif premier est d’équiper l’extension du supercalculateur Jupiter qu’Eviden doit installer avant fin 2026 au centre de recherche Jülich, en Allemagne. Eviden devrait ensuite commercialiser toute une famille de serveurs BullSequana sur le modèle de cette machine – soit six processeurs Rhea par carte mère, plus des modules d’accélération remplis de GPU Nvidia. L’enjeu est d’utiliser en priorité ce processeur pour répondre aux besoins de l’UE en matière d’applications hautement performantes, parmi lesquelles l’entraînement des IA.

La meilleure puce pour l’IA générative ?

Outre Eviden, l’hébergeur de cloud français Scaleway a aussi manifesté son intérêt pour des serveurs équipés du processeur Rhea, mais dépourvus de GPU. De telles machines lui permettraient de commercialiser des services d’IA générative totalement indépendants de technologies américaines, mais tout aussi efficaces.

La caractéristique unique du Rhea tient dans les 64 Go de RAM HBM embarqués dans le processeur. « Cela signifie que l’on peut charger un LLM entier dans la puce et travailler dessus à pleine vitesse, sans aucun goulet d’étranglement », argumente Philippe Notton. D’ordinaire, seuls les GPUs haut de gamme sont dotés de mémoire HBM. Mais comme ils sont taillés pour l’entraînement, les utiliser pour l’inférence (chatbots, RAG…) est une aberration énergétique.

Ainsi le GPU B200 de Nvidia, qui dispose de 192 Go de mémoire HBM, consomme 1300 watts, alors que le Rhea, doté de 80 cœurs ARM Neoverse V1 (chacun avec deux unités vectorielles 256 bits utiles pour accélérer l’inférence) est prévu pour 350 watts. Soit autant qu’un processeur AMD Epyc de 64 cœurs, lequel n’a pas de mémoire intégrée et se montre donc a priori bien moins efficace sur l’inférence.

Pour l’inférence, Nvidia propose plutôt ses GPU RTX Pro 5000 et 6000, qui possèdent respectivement 48 et 96 Go de RAM. Il s’agit dans leur cas de mémoire GDDR bien moins rapide que la HBM. La consommation du RTX Pro 6000 est de 600 watts. Celle du RTX Pro 5000 n’est que de 300 watts. Mais un GPU a forcément besoin d’un processeur pour fonctionner, ce qui augmente donc la consommation au-delà du Rhea.

Les 64 Go de mémoire HBM du Rhea devraient lui permettre de charger des LLM d’environ 100 milliards de paramètres en 4 bits (plus de connaissances) ou deux fois moins en 8 bits (des connaissances plus précises). À ce stade, on ignore si plusieurs Rhea pourraient additionner leur mémoire pour travailler sur des modèles de plus grandes tailles. Mais la mode étant à l’IA agentique, où l’on fait plutôt travailler ensemble plusieurs petits modèles d’IA, il est probable que ce cumul de mémoire HBM ne soit même pas nécessaire.