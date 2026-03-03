Serait-ce le retour des stations de travail propriétaires ? Pas pour calculer des images de synthèse ou des simulations cette fois, pour faire calculer des IA. Mais facilement, tout à la souris, sur des machines équipées d’accélérateurs propriétaires en avance sur leur temps, comme avec les Silicon Graphics dans les années 80. C’est ce que propose la startup américaine Helikai. Elle a packagé des agents d’IA prêts à l’emploi pour épauler divers métiers – informatiques, commerciaux, comptables, producteurs, chercheurs... – et les vend préinstallés sur des machines équipées des cartes accélératrices de son partenaire coréen FuriosaAI.

Ces cartes accélératrices, appelées RNGD, sont dotées d’une puce TCP (Tensor Contraction Processor) gravée avec une finesse de 5nm qui délivre une puissance de 512 TOPS (milliers de milliards d’opérations à la seconde) en précision 8 bits. Le double en précision 4 bits. Cette puissance sert à interpréter des prompts, chercher des connaissances dans la base vectorielle d’un LLM et synthétiser des réponses en texte courant, en images, en voix ou en mélodies. En clair, de l’IA générative à partir de modèles déjà entraînés.

Une carte RNGD est à peu près la même chose qu’une carte L40S de Nvidia, mais avec une bande passante mémoire deux fois plus importante : 1,5 To/s au lieu de 860 Mo/s. Et, surtout, en consommant deux fois moins d’énergie, soit 180W au lieu de 350W. Techniquement, la puce intègre deux circuits de mémoire HBM3e qui totalisent 48 Go. Elle dispose aussi d’un cache de 256 Mo dans lequel les données sont lues ou écrites à la vitesse de 3,84 To/s.

FuriosaAI et Helikai les proposent dans des serveurs racks de taille 4U aux couleurs noir et rouge, le premier avec deux processeurs AMD Epyc, le second avec deux Intel Xeon. Dans les deux cas, ces machines peuvent contenir d’une à huit cartes RNGD, pour atteindre une puissance de calcul de 4096 TOPS. Et totaliser 384 Go de mémoire HBM, soit pratiquement autant de milliards de paramètres d’un modèle d’IA.

Mais le but d’Helikai n’est pas d’utiliser des LLM gigantesques. Il est de conjuguer dans la même machine toute une flotte de modèles d’IA spécialisés qui collaborent pour venir à bout d’un flux métier complexe.

Du RAG, des agents, une console pour les enchaîner et une autre pour les optimiser Helikai a développé une plateforme d’IA composée de quatre modules. Le premier est le SPRAG, alias du RAG qui est sécurisé et privé, essentiellement parce qu’il s’exécute sur site, au sein du serveur. Ce module récupère des données de travail depuis des disques, des partages de fichiers, des services de stockage en ligne en mode fichiers ou objet. Il les convertit en vecteur avec l’aide d’une IA sectorielle, qui ne se contente pas d’encoder du texte selon le sens brut des mots, mais selon la signification des informations selon le métier pour lequel la solution d’Helikai sera déployée. Viennent ensuite les Helibots, soit une variété de LLM du marché (librement téléchargeables comme commerciaux), mais surentraînés (par fine-tuning) pour des domaines particuliers. Ce surentraînement, conjugué aux données du RAG, est censé générer dès le premier prompt des informations plus précises que ne le ferait un LLM de série. Au troisième niveau, KaiFlow est un orchestrateur, une interface qui permet de modéliser des processus métier et d’affecter à chaque étape un Helibot spécialisé dans un domaine. Les hélibots successifs se passent les réponses qu’ils ont générées et peuvent chacun intervenir dans des applications métiers – pour peu qu’elles acceptent d’être pilotées par des API greffées à un serveur MCP. Enfin, le module Malama sert à monitorer le fonctionnement des processus, notamment les ressources utilisées, et à déterminer comment les optimiser davantage pour qu’ils consomment moins d’énergie.