Le WSE, un processeur de 21,5 cm de côté pour supercalculer l’IA

Ce processeur aux 400 000 cœurs, 56 fois plus gros que le plus gros des GPU, est censé calculer 9 Po de données à la seconde dans les algorithmes de Machine Learning.

par

Yann Serra, LeMagIT

Publié le: 21 août 2019

Cerebras Systems, une startup de San Francisco, vient de dévoiler ce qu’elle revendique être le premier processeur aux mille milliards de transistors. Optimisée pour l’intelligence artificielle, cette « puce », la Wafer Scale Engine (WSE), mesure plus de 462 cm2, soit plus de 56 fois la taille d’un GPU, le composant habituellement utilisé pour les traitements matriciels du Machine Learning. Le WSE n’embarque pas moins de 18 Go de mémoire cache et 400 000 cœurs, appelés SLA (Sparse Linear Algebra).

Andrew Feldman, le fondateur et PDG de la startup, se targue d’avoir aboli le goulet d’étranglement de la bande passante vers la mémoire. « Avec autant de cœurs et de mémoire embarqués sur une seule puce, les communications qui ont lieu à chaque étape des traitements ne sortent jamais du processeur. Cela signifie que nous réduisons la latence comme jamais et que nos cœurs collaborent avec une efficacité maximale », déclare-t-il.

En l’occurrence, les cœurs sont reliés par un réseau maillé qui leur permet de dialoguer de pair à pair, sans hiérarchie centrale, de sorte à atteindre une bande passante globale de 100 Petabits/s (environ 12,5 Po/s). Le stockage des résultats dans la mémoire interne se ferait quant à lui à la vitesse de 9 Po/s.

Un seul processeur par wafer

Du point de vue industriel, le processeur de Cerebras revient en fait à un wafer entier sur lequel on a juste découpé les bords, pour passer d’un disque à une forme carrée.

Une opération bien plus compliquée qu’elle en a l’air : d’ordinaire, plusieurs centaines de petites puces sont gravées sur un wafer, car il est quasiment inéluctable que des imperfections apparaîtront de-ci de-là à la surface. Pour rentabiliser la production, tous les fabricants de processeurs déclinent alors les circuits victimes d’erreurs en modèles moins chers, vendus comme ayant moins de cœurs, ou moins de mémoire cache. Intel et AMD ont beau afficher des dizaines de références différentes à chaque nouvelle génération de processeurs, il s’agit en vérité toujours du même processeur haut de gamme, mais avec plus ou moins de parties inopérantes.

Cependant, dans le cas d’un processeur qui occupe toute la surface d’un wafer, autant dire que la moindre erreur réduit drastiquement ses caractéristiques. Pour contourner le problème, Cerebras a donc conçu un design avec bien plus de cœurs que le nombre officiellement annoncé, et parie sur le fait que le taux d’erreurs lors de la gravure lui permettra d’en avoir toujours au moins 400.000 fonctionnels.

Il semble par ailleurs que le WSE dispose d’un microprogramme qui permet à son réseau de déterminer, à l’allumage, quels cœurs ne fonctionnent pas correctement pour les déconnecter. Ce dispositif éviterait ainsi à Cerebras de tester chacun de ses circuits, une étape dont ni Intel ni AMD ne peuvent se passer.

Notons qu’à l’instar d’AMD, Cerebras a choisi les usines de TSMC pour faire graver sa puce.

Des prototypes en attendant les commandes des constructeurs

Reste à savoir comment les fournisseurs de serveurs vont bien pouvoir exploiter ce gigantesque processeur qui fait 21,5cm de côté et consomme à lui tout seul 15000 watts.

Cerebras travaille pour eux sur des designs intégrés, notamment un volumineux système de refroidissement dans lequel le processeur serait placé en position verticale. Un aménagement qui rappelle furieusement le système de refroidissement à huile d’Immersion 4, dans lequel les serveurs ne sont plus montés horizontalement dans des étagères Rack, mais plongés verticalement dans des bacs.

Pour l’heure, Cerebras se contente de produire des prototypes et attend des commandes fermes pour lancer la production.

Le WSE, un processeur de 21,5 cm de côté pour supercalculer l’IA

Ce processeur aux 400 000 cœurs, 56 fois plus gros que le plus gros des GPU, est censé calculer 9 Po de données à la seconde dans les algorithmes de Machine Learning.

Un seul processeur par wafer

Des prototypes en attendant les commandes des constructeurs

Pour approfondir sur HPC

GTC 2026 : maintenant, Nvidia part à la conquête des serveurs

La puce géante de Cerebras motorisera les IA d’AWS

Semiconducteurs : TSMC présente les premiers GPU Nvidia made in USA

Les USA vont aussi taxer les importations de semiconducteurs