
Cerebras promeut sa puce IA via un chatbot DeepSeek R1 plus rapide
En quête de visibilité pour son processeur géant WSE-3, le concepteur de semiconducteurs américain propose lui aussi en ligne un chatbot gratuit pour utiliser le LLM chinois, mais avec des réponses plus rapides qu’ailleurs.
Cerebras Systems, le concepteur d’une puce de calcul géante censée rivaliser avec les GPU de Nvidia, lance un service en ligne d’IA générative dédié au LLM chinois DeepSeek R1. Celui-ci y exécuterait les prompts quinze fois plus rapidement, en moyenne, que chez AWS ou Azure, où DeepSeek-R1 fonctionne actuellement à partir de GPU H200 de Nvidia. Le service est disponible gratuitement sous la forme d’un chatbot en ligne et sera bientôt intégrable dans des applications via des API, mais sans doute moyennant finances.
Pour mémoire, Cerebras Systems a mis au point une puce géante qui a la taille d’un wafer entier, le processeur WSE-3. Mesurant 21,5 cm de côté, elle embarque 84 cœurs avec 512 Mo de cache chacun (44 Go au total, en comptant les 2 Go de cache frontal), et les bus qui interconnectent les circuits cumulent un débit de 21 Po/s. Soit une vitesse 4 375 fois supérieure au 4,8 To/s du GPU H200. Pour autant, ce dernier a plutôt deux cœurs qui accèdent chacun à une mémoire partagée bien plus importante : 141 Go.
La puce de Cerebras Systems n’a rien à voir, ni physiquement ni algorithmiquement, avec un GPU courant. Le fournisseur est de fait à la peine pour convaincre des entreprises de l’adopter et des marques de serveurs de l’intégrer. Cerebras System fabrique lui-même une baie de serveurs CS-3, la seule à ce jour qui repose sur le processeur WSE-3. 192 de ces baies de serveurs ont servi à construire un supercalculateur, le Condor Galaxy 3-5, déployé à Dallas, qui atteint une puissance de 12 exaflops et totalise 300 To de mémoire.
Dans ces circonstances, proposer soi-même un service d’IA générative gratuit en ligne pour prouver l’efficacité de la solution est considéré comme un investissement marketing acceptable.
Un LLM spécialement adapté à l’architecture du processeur WSE-3
Pour parvenir à dépasser les performances des GPU de Nvidia, Cerebras Systems doit entraîner les modèles avec une méthode de Machine learning dite clairsemée. Celle-ci augmente la taille des LLM pour réduire leur densité d’informations, de sorte que des unités de traitement en parallèle aient plus rarement besoin d’accéder aux mêmes adresses en RAM lors de l’inférence, ce qui arrange l’architecture mémoire morcelée du WSE-3.
Il n’est pas très clair, dans les explications fournies par Cerebras Systems, si ce système favorise l’inférence sur des modèles entraînés avec la technique dite de « Mixture of Experts » (MoE), dont DeepSeek se revendique et qui consiste justement à mieux séparer le LLM en régions spécialisées. Toujours est-il que Cerebras Systems l’évoque. Dans les faits, le DeepSeek R1 que propose Cerebras Systems en ligne est une version distillée de 70 milliards de paramètres qui se base sur les connaissances de Llama 3.3, le LLM de Meta.
Cerebras Systems n’est pas le seul fabricant de puces alternatives à Nvidia qui propose en ligne un chatbot d’IA générative pour démontrer ses performances sous DeepSeek. Citons également le fabricant du processeur Groq (à ne pas confondre avec l’IA générative Grok d’Elon Musk).
Selon le site comparatif Artificial Analysis, le chatbot de Cerebras Systems produirait en moyenne 1 497 tokens par seconde et celui de Groq 256 tokens par seconde. Précisons que la puce de Groq se veut un composant peu cher qui n’est utilisable que pour l’inférence, alors que le WSE-3 est censé servir aussi à l’entraînement.
Précisons que les chatbots d’IA générative de Cerebras Systems et de Groq sont accessibles depuis la France, mais s’exécutent sur le territoire américain.