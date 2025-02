Cerebras Systems, le concepteur d’une puce de calcul géante censée rivaliser avec les GPU de Nvidia, lance un service en ligne d’IA générative dédié au LLM chinois DeepSeek R1. Celui-ci y exécuterait les prompts quinze fois plus rapidement, en moyenne, que chez AWS ou Azure, où DeepSeek-R1 fonctionne actuellement à partir de GPU H200 de Nvidia. Le service est disponible gratuitement sous la forme d’un chatbot en ligne et sera bientôt intégrable dans des applications via des API, mais sans doute moyennant finances.

Pour mémoire, Cerebras Systems a mis au point une puce géante qui a la taille d’un wafer entier, le processeur WSE-3. Mesurant 21,5 cm de côté, elle embarque 84 cœurs avec 512 Mo de cache chacun (44 Go au total, en comptant les 2 Go de cache frontal), et les bus qui interconnectent les circuits cumulent un débit de 21 Po/s. Soit une vitesse 4 375 fois supérieure au 4,8 To/s du GPU H200. Pour autant, ce dernier a plutôt deux cœurs qui accèdent chacun à une mémoire partagée bien plus importante : 141 Go.

La puce de Cerebras Systems n’a rien à voir, ni physiquement ni algorithmiquement, avec un GPU courant. Le fournisseur est de fait à la peine pour convaincre des entreprises de l’adopter et des marques de serveurs de l’intégrer. Cerebras System fabrique lui-même une baie de serveurs CS-3, la seule à ce jour qui repose sur le processeur WSE-3. 192 de ces baies de serveurs ont servi à construire un supercalculateur, le Condor Galaxy 3-5, déployé à Dallas, qui atteint une puissance de 12 exaflops et totalise 300 To de mémoire.

Dans ces circonstances, proposer soi-même un service d’IA générative gratuit en ligne pour prouver l’efficacité de la solution est considéré comme un investissement marketing acceptable.