Puces IA : EnCharge AI lance une alternative à Qualcomm

Dans la catégorie des accélérateurs pour PC, la puce EN100 de la startup américaine n’est pas intrinsèquement plus puissante que le Cloud AI 100 de Qualcomm, mais elle est beaucoup moins énergivore. Ce qui permet de pousser sa fréquence.

Encore un nouveau type d’accélérateur pour l’intelligence artificielle. La startup EnCharge AI, fondée par des chercheurs de l’université américaine de Princeton, vient de dévoiler une puce EN100 qui fournirait une puissance de calcul de 200 TOPS (mille milliards d’opérations) à un ordinateur personnel. Soit sous la forme d’une barrette M.2 de 32 Go pour PC portables, soit sous celle d’une carte PCIe qui contient quatre EN100 et 128 Go de mémoire.

Les deux cartes consomment respectivement 8,25 et 40 watts. Ce qui en fait donc des solutions bien moins énergivores que les accélérateurs équivalents pour PC basés sur la puce Cloud AI 100 de Qualcomm. Comparativement, une barrette M.2 contenant un Cloud AI 100 et 32 Go de mémoire consomme 75 watts, tandis que la version PCIe avec quatre puces et 128 Go de RAM atteint 150 watts.

Cette maîtrise de l’énergie serait due à une conception nouvelle du design du circuit. EnCharge AI parle d’Analog in-memory. Le concept n’est pas nouveau, il consiste à faire correspondre les poids des matrices de données à des résistances électriques sur le circuit, explique un article scientifique du magazine de recherche Nature. En revanche, ce design est initialement pensé pour l’entraînement des LLM, pas pour leur utilisation.

De prime abord, le défaut de l’EN100 sera qu’il ne pourra accélérer que des LLM qui auront été spécifiquement entraînés pour fonctionner sur son circuit. EnCharge AI propose sur son site des logiciels pour entraîner soi-même des modèles. Sauf que (a priori) cette tâche, qui est celle des clusters de GPU en datacenters, est bien trop lourde pour un PC. Il faudra donc espérer que des versions des LLM spécifiques à l’EN100 voient le jour sur HuggingFace.

Moins performant en barrette, meilleur en PCIe

Comme Qualcomm, EnCharge AI propose de charger l’intégralité d’un LLM dans la mémoire de l’accélérateur pour l’interroger sans souffrir de goulets d’étranglement. Puisque ces puces fonctionnent avec une précision de 8 bits, il s’agira donc de LLM d’un peu plus de 20 milliards ou de 100 milliards de paramètres selon que l’on s’en sert sur un PC portable ou de bureau.

Qualcomm affirme que ses accélérateurs ont deux fois plus de bande passante mémoire : 137 Go/s contre 68 Go/s chez EnCharge AI, pour les versions en barrette, et un cumul de 548 Go/s contre 272 Go/s, pour les versions PCIe. Et pour cause, l’accélérateur de Qualcomm utilise des cœurs ARM, plus éprouvés, tandis que celui d’EnCharge AI s’appuie sur des cœurs RISC-V, un design Open source qui commence à peine à se développer. De fait, Qualcomm peut se targuer d’être près de deux fois plus performant sur la version en barrette, avec un score affiché de 375 TOPS.

Ce n’est en revanche pas le cas sur la version PCIe. Sa maîtrise de la consommation d’énergie permet à EnCharge AI de monter la fréquence de ses puces, de sorte que la carte PCIe atteindrait une puissance de calcul d’environ 1000 TOPS, affirme la startup. À l’inverse, Qualcomm doit à ce point réduire la fréquence sur sa carte PCIe pour ne pas dépasser les 150 watts que ses quatre puces ne cumulent plus qu’une puissance de 870 TOPS.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)