IA générative : Helikai et FuriosaAI proposent un serveur tout-en-un

L’Américain Helikai a mis au point une plateforme logicielle complète pour le RAG, l’inférence selon les secteurs d’activité et la modélisation de processus métiers assistés par des IA. Il la vend dans un serveur doté des accélérateurs du Coréen FuriosaAI.

Serait-ce le retour des stations de travail propriétaires ? Pas pour calculer des images de synthèse ou des simulations cette fois, pour faire calculer des IA. Mais facilement, tout à la souris, sur des machines équipées d’accélérateurs propriétaires en avance sur leur temps, comme avec les Silicon Graphics dans les années 80. C’est ce que propose la startup américaine Helikai. Elle a packagé des agents d’IA prêts à l’emploi pour épauler divers métiers – informatiques, commerciaux, comptables, producteurs, chercheurs… – et les vend préinstallés sur des machines équipées des cartes accélératrices de son partenaire coréen FuriosaAI.

Ces cartes accélératrices, appelées RNGD, sont dotées d’une puce TCP (Tensor Contraction Processor) gravée avec une finesse de 5 nm qui délivre une puissance de 512 TOPS (milliers de milliards d’opérations à la seconde) en précision 8 bits. Le double en précision 4 bits. Cette puissance sert à interpréter des prompts, chercher des connaissances dans la base vectorielle d’un LLM et synthétiser des réponses en texte courant, en images, en voix ou en mélodies. En clair, de l’IA générative à partir de modèles déjà entraînés.

Une carte RNGD est à peu près la même chose qu’une carte L40S de Nvidia, mais avec une bande passante mémoire deux fois plus importante : 1,5 To/s au lieu de 860 Mo/s. Et, surtout, en consommant deux fois moins d’énergie, soit 180W au lieu de 350W. Techniquement, la puce intègre deux circuits de mémoire HBM3e qui totalisent 48 Go. Elle dispose aussi d’un cache de 256 Mo dans lequel les données sont lues ou écrites à la vitesse de 3,84 To/s.

FuriosaAI et Helikai les proposent dans des serveurs racks de taille 4U aux couleurs noir et rouge, le premier avec deux processeurs AMD Epyc, le second avec deux Intel Xeon. Dans les deux cas, ces machines peuvent contenir d’une à huit cartes RNGD, pour atteindre une puissance de calcul de 4096 TOPS. Et totaliser 384 Go de mémoire HBM, soit pratiquement autant de milliards de paramètres d’un modèle d’IA.

Mais le but d’Helikai n’est pas d’utiliser des LLM gigantesques. Il est de conjuguer dans la même machine toute une flotte de modèles d’IA spécialisés qui collaborent pour venir à bout d’un flux métier complexe.

Du RAG, des agents, une console pour les enchaîner et une autre pour les optimiser

Helikai a développé une plateforme d’IA composée de quatre modules. Le premier est le SPRAG, alias du RAG qui est sécurisé et privé, essentiellement parce qu’il s’exécute sur site, au sein du serveur.

Ce module récupère des données de travail depuis des disques, des partages de fichiers, des services de stockage en ligne en mode fichiers ou objet. Il les convertit en vecteur avec l’aide d’une IA sectorielle, qui ne se contente pas d’encoder du texte selon le sens brut des mots, mais selon la signification des informations selon le métier pour lequel la solution d’Helikai sera déployée.

Viennent ensuite les Helibots, soit une variété de LLM du marché (librement téléchargeables comme commerciaux), mais surentraînés (par fine-tuning) pour des domaines particuliers. Ce surentraînement, conjugué aux données du RAG, est censé générer dès le premier prompt des informations plus précises que ne le ferait un LLM de série.

Au troisième niveau, KaiFlow est un orchestrateur, une interface qui permet de modéliser des processus métier et d’affecter à chaque étape un Helibot spécialisé dans un domaine. Les hélibots successifs se passent les réponses qu’ils ont générées et peuvent chacun intervenir dans des applications métiers – pour peu qu’elles acceptent d’être pilotées par des API greffées à un serveur MCP.

Enfin, le module Malama sert à monitorer le fonctionnement des processus, notamment les ressources utilisées, et à déterminer comment les optimiser davantage pour qu’ils consomment moins d’énergie.

Une armée d’agents d’IA ultraspécialisés et prêts à l’emploi

Parmi les démonstrations que la startup a présentées à la presse à l’occasion d’un événement IT Press Tour consacré aux entreprises qui innovent en matière de traitement des données, LeMagIT a pu voir des IA remplir toutes seules les tableaux d’un ERP au fil de la création de nouvelles données par les métiers et générer des propositions commerciales.

D’autres servaient d’assistants à des commerciaux et des services support, en rapatriant en un clin d’œil les informations nécessaires pour répondre à un client. Ces agents sont en mesure de travailler sur le temps long en intervenant à chaque étape d’une vente. Les agents d’IA savent notamment prédire les opportunités de vente, dresser des devis, prioriser les tâches à accomplir, publier des factures, discerner les frustrations des clients, dresser des rapports d’activité.

Dans le monde de la recherche, les agents d’IA savent étiqueter correctement toutes les informations observée ou calculée, analyser des quantités industrielles de données, ou encore modéliser des expérimentations de sorte à maximiser leur taux de réussite.

Dans le secteur des médias, les agents d’Helikai génèrent à la volée des sous-titres aux vidéos et même le doublage oral des acteurs dans n’importe quelle langue. Ils étiquettent chaque séquence d’une vidéo pour retrouver plus facilement des rushes et router vers les bons opérateurs chaque étape du processus de création.

D’autres exemples concernent le sport, la justice ou encore les assurances. À en croire Helikai, les possibilités de ses agents sont infinies. Cependant, la startup recommande à ses clients de passer par une première étape d’analyse des projets avec ses équipes, lesquelles sont susceptibles de surentraîner au cas par cas chaque IA pour des besoins précis. C’est d’ailleurs l’essentiel des projets à venir chez Helikai : publier régulièrement de nouveaux Helibots ultraspécialisés.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)