Puces IA : le prochain RGND de FuriosaAI fonctionnera en cluster
L’accélérateur de la startup coréenne ne sait exécuter que des tâches d’inférence dans un serveur, mais il le fait à la vitesse des GPU Nvidia pour une consommation électrique bien moindre. Sa future version 3 pourra être utilisée en grappe de calcul dans un datacenter.
La startup coréenne FuriosaAI annonce passer un partenariat avec le fabricant de semiconducteurs Broadcom pour concevoir la troisième génération de sa puce RNGD qui accélère les tâches d’inférence. Ces tâches sont en l’occurrence l’IA générative et le RAG à partir de modèles déjà entraînés. L’apport de Broadcom concernera essentiellement la partie réseau de la puce.
Les accélérateurs RNGD – qu’il faut prononcer « Renegade »- n’étaient jusqu’ici utilisables que sur des machines d’appoint, dont le serveur de la startup américaine Helikai. Les nouvelles capacités réseau du RNGD 3 devraient lui permettre d’intégrer des clusters de plusieurs serveurs. En pratique, il s’agit de passer d’un produit qui exécute de l’IA en local, à un produit utilisable chez un hébergeur pour commercialiser des services d’inférence en ligne.
Prévu pour une mise sur le marché au début de l’année 2028, le RNGD 3 intégrera des cœurs de calcul TCP (Tensor Contraction Processor) gravés avec une finesse de 2nm, une mémoire HBM4 et les circuits réseau de Broadcom. Tous seront assemblés dans un SoC.
De la puissante mémoire HBM dans une puce simple pour accélérer l’inférence
À l’instar du processeur Rhea de SiPearl qui est sorti cette semaine d’usine, l’accélérateur TCP prétend pouvoir exécuter les applications d’IA aussi rapidement qu’un GPU Hopper, Blackwell ou Rubin de Nvidia, alors qu’il est très loin d’en avoir la complexité.
En vérité, la capacité des GPU à exécuter en parallèle des fonctions mathématiques de pointe n’est utile que lors de la phase d’entraînement des modèles d’IA. Convertir un prompt en tokens, aller chercher des connaissances qui leur correspondent dans un LLM et dans une base vectorielle, puis, in fine, générer un contenu sont en revanche des opérations accessibles à des circuits relativement classiques. Le seul avantage des GPU est qu’ils intègrent une mémoire HBM qui accélère considérablement le déroulement de toutes les opérations. Y compris les plus simples.
L’idée de FuriosaAI, qui est la même que celle de SiPearl, consiste donc à intégrer une mémoire HBM dans un processeur relativement générique pour en faire un accélérateur qui n’exécute que des opérations d’inférence.
L’intérêt est qu’une carte PCIe RGND de Furiosa ne consomme (et ne dissipe) que 180W, contre 1300W pour un GPU dernier cri de Nvidia. Elle revient donc bien moins chère à faire fonctionner et peut prendre place dans des serveurs classiquement refroidis par ventilateurs. L’entreprise cliente n’est plus condamnée à déployer un système de pompes hydrauliques pour refroidir ses serveurs par liquide.
Pour l’instant, 4000 exemplaires sur le marché
Le modèle actuel de RNGD, le second, intègre 48 Go de mémoire HBM3, ce qui lui permet d’exécuter des opérations d’inférence sur des modèles d’environ 30 milliards de paramètres avec une précision de 8 bits (réponses au rendu très réaliste) ou le double avec une précision de 4 bits (réponses qui paraissent plus instruites, mais avec un rendu de moindre qualité).
La puce a été gravée l’année dernière en 4000 exemplaires par TSMC, avec une finesse de 5nm, et assemblée sur une carte PCIe par Asus. Cette carte utilise 16 voies PCIe 5.0. Il est possible d’en mettre jusqu’à huit dans un serveur bisocket. Ce nombre de huit est a priori la quantité de nœuds que la couche logicielle de FuriosaAI reconnaît quand elle distribue les prompts des utilisateurs sur un pool d’accélérateurs RGND.
Dans la future version 3, cette même couche logicielle sera capable de distribuer les prompts sur un plus grand nombre de nœuds, qui plus est vers d’autres serveurs. Elle devrait aussi être capable de déplacer des fenêtres de contexte (le KV-Cache) d’un RGND à l’autre.
