La puce accélératrice géante de Cerebras motorisera les IA d’AWS

L’hyperscaler américain utilisera l’accélérateur WSE-3 d’une puissance de 125 pétaflops pour seconder ses propres puces Trainium3 dans ses services d’IA générative. La répartition des calculs entre les deux composants, appelée inférence désagrégée, est inédite.

L’hyperscaler américain AWS annonce qu’il intégrera cette année la puce accélératrice géante WSE-3 de Cerebras dans ses services d’IA. L’enjeu sera de proposer des IA génératives plus rapides, car fonctionnant sur le principe inédit d’inférence « désagrégée ». En l’occurrence, les calculs seront découpés pour que leurs fonctions s’exécutent sur le circuit le plus optimal.

La puce accélératrice maison d’AWS, le Trainium3, servira à encoder le prompt des utilisateurs sous forme de vecteurs compatibles avec la base de connaissance d’un LLM, tandis que le WSE-3 générera les résultats à partir des connaissances pointées par les vecteurs du prompt.

« À chaque fois que vous posez une question à une IA, deux opérations distinctes se déroulent : le prefill qui interprète votre question et le decode qui génère la réponse. Chacun sollicite des caractéristiques matérielles différentes : calculs matriciels pour le premier, mémoire à large bande passante pour le second. En dédiant à chacun un circuit optimisé pour son fonctionnement, AWS va offrir à ses utilisateurs des IA cinq fois plus rapides », explique James Wang, le directeur produit de Cerebras, dans un billet de blog.

125 + 2,52 pétaflops

Physiquement, les deux puces seront sur des serveurs différents, lesquels seront connectés via des cartes réseau Elastic Fabric Adapter. Ces cartes Ethernet, propres à AWS, sont capables de faire passer les données directement de la mémoire d’un serveur à celle d’un autre.

Les puces WSE-3 seront livrées à AWS au sein de serveurs CS-3, une machine 16U que Cerebras fabrique lui-même et qui ne contient qu’une seule puce WSE-3. Celle-ci est si grande que, installée verticalement, elle occupe la moitié de la hauteur du serveur. Sa grande taille lui permet d’intégrer 900 000 cœurs et 44 Go de mémoire cache. Les cœurs communiquent avec ce cache à la vitesse de 21 Po/s, entre eux à la vitesse de 214 Po/s et avec des cartes réseau à la vitesse de 1,2 Tbit/s.

La puissance de calcul d’une puce WSE-3 est de 125 pétaflops (millions de milliards d’opérations à la seconde) en précision 16 bits. Cerebras parle d’une capacité de génération de 3000 tokens par seconde. Refroidie avec une eau qui doit entrer dans le serveur à 20°C et un débit de 100 litres par minute, elle porte la consommation énergétique de sa machine hôte à 27 kW.

De son côté, une puce Trainium3 n’a qu’une puissance de calcul de 2,52 pétaflops en précision 8 bits, mais embarque 144 Go de mémoire HBM3e. Celle-ci est toutefois moins rapide que la mémoire cache. AWS installe son Trainium 3 dans des baies rack pouvant contenir 18 serveurs équipés chacun de quatre puces.

Le scénario d’usage est probablement que les Trainium servent à encoder les questions de plusieurs utilisateurs simultanés qui travaillent tous avec le même LLM stocké dans la mémoire cache d’une puce WSE-3.

La nouvelle super puce de ChatGPT

La fonction d’inférence désagrégée sera disponible au sein du portail de services d’IA Bedrock d’AWS. Les IA génératives compatibles seront celles de la famille Nova (des LLM surentraînés par AWS pour des tâches précises), une sélection de LLM ouverts et, surtout, ChatGPT.

L’éditeur OpenAI travaille en effet à adapter ses modèles d’IA générative à la puce de Cerebras après lui avoir récemment passé commande de serveurs CS-3 qu’il compte exploiter lui-même, sans passer par l’infrastructure d’un hébergeur tiers. Cette commande, évaluée à 10 milliards de dollars, correspond à la livraison, échelonnée jusqu’en 2028, d’un lot de serveurs CS-3 totalisant 750 MW de capacité énergétique. Soit, a priori, près de 28 000 serveurs.

Initialement, ChatGPT n’était disponible que dans le cloud public Azure de Microsoft, mais celui-ci a perdu l’exclusivité de sa distribution depuis qu’OpenAI s’est lancé dans le projet Stargate visant à proposer son propre cloud, depuis ses propres datacenters. En attendant que Stargate se concrétise, ChatGPT a fait son apparition dans le catalogue d’autres hyperscalers. Son arrivée chez AWS a été officialisée lors du dernier salon AWS Re:Invent de décembre 2025.

Les puces de Cerebras sont dites « géantes », car un seul exemplaire tient sur un wafer entier. Le wafer étant le disque de silicium sur lequel sont gravés les semiconducteurs. Si cette approche a eu du mal à convaincre dans un premier temps, force est de reconnaître que les efforts de communication de Cerebras ont fini par séduire les plus grands noms de l’IA. En février, la startup avait convaincu des cabinets financiers d’investir 1 milliard de dollars dans son capital. Elle imagine à présent entrer en bourse d’ici à la fin de l’année.

Pour approfondir sur IaaS