Fondée à San Sebastián en 2019, Multiverse Computing s’est spécialisée dans un domaine bien particulier de l’intelligence artificielle : la compression des modèles. L’entreprise développe des techniques pour réduire drastiquement la taille des LLM – tout en conservant l’essentiel de leurs performances.

Ainsi compressés, ces « gros » modèles sont utilisables dans des environnements beaucoup plus contraints que les serveurs des grands centres de calcul. Ordinateurs portables, infrastructures locales, systèmes embarqués ou mêmes smartphones peuvent faire tourner ces LLM qui, initialement, n’étaient pas conçus pour ces supports.

L’approche répond à plusieurs enjeux des entreprises comme la réduction de la consommation énergétique – et son corollaire, la maîtrise des coûts –, mais aussi le traitement 100 % en local des données sensibles.

Encore peu connue en France, la pépite hispanique qui réalise 100 millions $ d’ARR après avoir levé 215 millions $, a décidé de passer « à la vitesse supérieure en 2026 avec des recrutements et une concentration accrue sur les secteurs réglementés et industriels », explique Michel Kurek, CEO de Multiverse Computing France.

Des mathématiques inspirées du quantique Techniquement, les méthodes de compression de Multiverse Computing s’appuient sur des outils mathématiques issus de la recherche en physique et en informatique quantiques. Elles ne reposent pas en revanche sur des ordinateurs quantiques. « Le lien entre l’informatique quantique et la compression des LLM et plus généralement des modèles à base de réseaux de neurones est conceptuel et mathématique, pas matériel », insiste Michel Kurek. « Nous appliquons des méthodes issues de la recherche quantique pour réorganiser et factoriser les paramètres des modèles d’IA, ce qui permet de réduire drastiquement leur taille tout en conservant leurs performances ». « Le lien entre l’informatique quantique et la compression des LLM [est] conceptuel et mathématique, pas matériel. » Michel KurekCEO de Multiverse Computing France « Les grands modèles de langage reposent sur d’immenses structures mathématiques. Les poids et paramètres peuvent être stockés dans des structures multidimensionnelles qui deviennent très coûteuses à stocker, mais surtout à faire fonctionner », continue-t-il. « Le besoin en calcul est exponentiel. Le nombre de paramètres a augmenté de 360 % par an depuis 15 ans alors que la puissance des machines n’a progressé que de 36 % par an sur la même période », estime-t-il. Or « La recherche quantique s’est justement attaquée depuis longtemps à la représentation compacte de systèmes très complexes », rappelle Michel Kurek. La solution proposée par Multiverse Computing est d’utiliser des réseaux de tenseurs, des structures mathématiques utilisées pour modéliser des systèmes physiques complexes. « Nous utilisons ces approches pour rendre les modèles d’IA beaucoup plus efficaces », vante le dirigeant qui est également ingénieur de formation. Le tout n’est donc pas de l’informatique quantique, mais « quantum inspired » (sic).

Plus de vingt modèles déjà compressés Multiverse Computing a compressé plus de vingt modèles d’IA open weight dont plusieurs de la famille Llama (Meta), DeepSeek, Falcon (la très prisée gamme de LLM des Émirats arabes unis), Gemma (Google), Qwen (Alibaba) en version « dé-censurée », Phi (petits modèles de Microsoft) ou encore OpenAI (gpt-oss-120b et gpt-oss-20b). « Le nombre de paramètres a augmenté de 360 % par an depuis 15 ans alors que la puissance des machines n’a progressé que de 36 % par an. » Michel KurekCEO de Multiverse Computing France Pour ces deux modèles, qu’il a rebaptisés respectivement HyperNova 60B et BlackStar 12B, la compression leur permettrait de fonctionner de deux à douze fois plus rapidement et de réduire les coûts d’inférence de 50 % à 80 %, avec une perte de performances négligeable (de l’ordre de 2 % de précision). « À titre de comparaison, les méthodes de compression traditionnelles entraînent une dégradation de performance de 20 à 30 % à des niveaux similaires », chiffre l’éditeur. En France, l’Espagnol a compressé deux modèles de Mistral, Mistral Small 3.1 24B et Ministral 8 B. Certains de ses travaux portent aussi sur des modèles de vision (famille YOLO), de reconnaissance vocale (Whisper) ou multimodaux.

Un modèle économique centré sur les logiciels Avec ses modèles compressés, Multiverse Computing a séduit une centaine de clients, dont, en France, des groupes comme Crédit Agricole, Natixis (groupe BPCE), Allianz France, ou Renault. Et la croissance des ventes globales serait au rendez-vous (+300 % des revenus sur 2025, 85 % prévus sur 2026) avec des bureaux à San Francisco, Toronto, Munich, Londres, et en Espagne à Barcelone, Madrid, Saragosse et dans sa ville natale, San Sébastian. Car, si les modèles d’origines sont open-weight, les modèles compressés ne sont pas librement accessibles, à l’exception d’HyperNova 60B et de Qwen3-Next-80B-A3B-Thinking qui sont disponibles sous licence Apache 2.0. « Notre ARR de 100 millions $ repose sur un modèle B2B deep-tech centré sur la monétisation de modèles d’IA fortement compressés et d’outils logiciels de compression et d’édition de modèles », confirme Michel Kurek. Ces technologies sont vendues sous forme de licences logicielles, d’abonnements ou d’accès via API. Les revenus sont complétés par des prestations de services autour de l’intégration et de l’adaptation des modèles aux environnements des entreprises. « Ces projets servent souvent de PoC avant de déboucher sur des contrats logiciels récurrents », précise le dirigeant.

Des chatbots souverains au cas d’usage industriel Cet accompagnement n’est pas superfétatoire, dans la mesure où les applications des modèles compressés dépassent largement le cas d’usage ultra-classique de l’assistant conversationnel. Même si Multiverse Computing en fait également. « Déployer des LLM en environnement on-premise, capables de traiter des données sensibles sans recourir à des hyperscalers étrangers, devient un enjeu majeur. » Michel KurekCEO de Multiverse Computing France Par exemple, avec une collectivité pour laquelle l’entreprise a compressé et fine-tuné un LLM développé par l’administration espagnole (Salamandra au sein de l’initiative ALIA) et réalisé un chatbot « souverain » pour plusieurs milliers d’agents publics. Le principe est qu’une partie du traitement est exécutée sur les smartphones des agents, et que seules les requêtes plus complexes sont redirigées vers le cloud. Au-delà des chatbots, dans l’industrie, la compression permet d’embarquer des modèles d’IA dans des environnements aux ressources limitées, ou en tout cas contraintes. Michel Kurek évoque des travaux menés dans la vision par ordinateur avec Airbus, pour la reconnaissance de gestes des pilotes. L’avionneur aurait exploré d’autres usages plus classiques de résumé de texte. Dans un autre projet, Multiverse Computing a développé une suite d’applications d’IA de bout en bout pour un système de vision déployé sur des cartes FPGA. Ces modèles compressés sont capables d’analyser des images directement sur des plateformes avec des connectivités limitées, comme des ballons stratosphériques.