itestro - Fotolia

Now Summit : Mistral AI conjugue IA agentique et cloud hybride

Sur le papier, la startup française suit les tendances du marché de l’IA agentique, insufflé par Anthropic. Elle arrive toutefois à se distinguer par son approche hybride, plus adaptée à sa clientèle privilégiée : les grands groupes et les institutions publiques européennes.

Lors de son événement Now Summit au carrousel du Louvre le 28 mai, Mistral AI a reçu quelque 1500 personnes. L’occasion pour le concurrent français d’OpenAI et d’Anthropic d’exposer sa vision et sa feuille de route produit. En la matière, la startup suit les tendances du marché, mais y ajoute sa touche hybride, souveraine et open source.

Parmi les annonces phares, il faut d’abord noter la disparition prochaine d’une icône. Le Chat est supplanté par Mistral Vibe. C’était initialement un « simple » CLI agentique. Désormais, l’idée est de proposer une seule interface et une seule licence pour les tâches de bureautique et de programmation.

Mistral Vibe remplace Le Chat

« À force d’utiliser la première version de Vibe et de le connecter à des outils, nous nous sommes rendu compte qu’il n’était pas nécessaire que ses capacités soient liées à un CLI », déclare Timothée Lacroix, cofondateur et directeur technique de Mistral AI, lors d’un keynote retranscrit sur LinkedIn.

Concrètement, Vibe s’appuie sur un même mécanisme agentique pour exécuter des processus au long cours de manière asynchrone, peu importe leur nature. Cette fonctionnalité, lancée en préversion privée depuis le 22 mai dernier, est propulsée par le LLM Mistral Medium 3.5 depuis des sessions dédiées, hébergées dans le cloud.

Mistral Medium 3.5 : à l'ère de l'IA agentique, les LLM denses pertinents, juge Mistral AI

Doté d’une architecture dense, de 128 milliards de paramètres et d’une fenêtre de contexte de 256 000 tokens, le LLM sous licence propriétaire permissive (une licence MIT modifiée qui devient propriétaire pour les entreprises dont le chiffre d’affaires excède 20 millions de dollars par mois) a été entraîné pour rassembler des capacités de programmation, de suivi d’instructions et de raisonnement.

Ce modèle plus récent remplace Devstral 2 et est facturé 1,5 dollar pour 1 million de tokens et 7,50 dollars pour le même volume en sortie. Des prix somme toute raisonnables en comparaison de ceux pratiqués par Anthropic et OpenAI.

Toutefois, confronté à l’Intelligence Index d’Artificial Analysis, il se place derrière GLM 5.1. C’est la neuvième position derrière Claude Opus 4.8. Mistral Medium 3.5 demeure rapide (plus de 147 tokens par seconde), mais s’avère tout juste un peu moins verbeux que Claude Opus 4.8 (90 millions de tokens en sortie, contre 110 millions pour accomplir le benchmark). Mistral Medium 3.5 garde l’avantage de son architecture dense. Moins performante sur le papier, elle nécessite bien moins de ressources de calcul que l’architecture SMoE, utilisée par les très grands modèles.

Du côté des fonctionnalités, la startup explique qu’avec le mode « travail » (« Vibe for Work », en préversion) de Mistral Vibe, Mistral Medium 3.5 sélectionne les bons outils – des skills préconfigurés ou « customs – et les documents accessibles depuis les plateformes du marché (Google Workspace, Outlook, SharePoint, Slack, GitHub, Notion, recherche Web, etc.).

Avec le mode code, il est possible de se connecter à GitHub, GitLab, Jira et bientôt Slack pour gérer des projets et enclencher des flux de travail en parallèle. Ici, Mistral AI rejoint la tendance poussée par Anthropic avec Claude Cowork.

Quant au CLI, il ne disparaît pas. Il permet désormais de transformer les skills en flux de travail accessible depuis des commandes/, tout comme il est possible de personnaliser la manière dont les sous-agents s’enclenchent. Par ailleurs, le plan des agents est éditable avant et pendant l’exécution des tâches. Les permissions dépendent de la session, avec des exceptions pour accéder aux fichiers, aux commandes et aux répertoires. Enfin, la commande « /teleport transfère une session en cours entre votre terminal et le cloud, tout en conservant l’historique et les validations ».

Pour faciliter l’adoption, Vibe a aussi le droit à un plugin pour l’IDE VS Code, très populaire chez les développeurs.

IDE ou CLI, les agents associés sont liés à une sandbox POSIX hébergée sur le cloud. Gérée par Mistral AI, elle doit garantir que les dépendances téléchargées par le LLM et les accès aux API n’atteignent pas les environnements de production cibles. Les dépôts sont clonés le temps de la session et les artefacts ne sont pas conservés, hormis s’ils sont nécessaires au fonctionnement du projet.

Studio, l’espace de gouvernance des « worfklows » agentiques

En lien avec Vibe, depuis Mistral Studio (ex La Plateforme), l’entreprise aux 1000 salariés a mis à disposition un moyen d’enregistrer des serveurs MCP, issu du fameux protocole Model Context Protocol. Une fois enregistrés, les serveurs MCP deviennent des « connecteurs » qui exposent les outils disponibles aux LLM associés. Les outils peuvent être directement invoqués et une boucle de confirmation permet à un humain de valider les exécutions.

Plus ambitieux, l’éditeur propose en préversion les « workflows », des flux de travail écrit en Python et exécuté à l’aide de Temporal, un moteur d’exécution robuste qui intègre des fonctions de sauvegarde et de restauration des flux en cas de problème. Il s’agit par ailleurs de la fondation de Maestro, la couche d’orchestration multiagent d’UiPath. Salesforce, Netflix et Stripe s’en servent également. Les flux de travail configurés depuis Studio peuvent être enclenchés depuis Mistral Vibe, y compris depuis le mode travail.

Ce même environnement permet aux développeurs d’accéder à la télémétrie et des espaces de travail doivent permettre d’assurer la séparation des équipes et des rôles. Dans ce cas-là, le control plane est exécuté par Mistral sur ses instances cloud (cluster Temporal, l’API Workflow et Studio), mais les workers sont exécutés dans les environnements Kubernetes du client (via un Helm Chart distinct), qu’ils soient dans le cloud, sur site ou en mode hybride, assure la startup. Ces flux de travail durables sont déjà utilisés par ASML, CMA-CGM, France Travail ou encore La Banque Postale, ajoute-t-elle. La gestion des erreurs, le traçage, les limites et les procédures de vérification humaines sont à paramétrer à travers le SDK Mistral.

Un kit pour accélérer les pipelines RAG

Mistral n’en oublie pas la recherche documentaire. Pour propulser des systèmes RAG, la startup a présenté la préversion de Search Toolkit. Ce framework Python doit simplifier l’ingestion, la recherche et l’évaluation des résultats.

En pratique, le pipeline prend en charge les fichiers PDF, Docx et PowerPoint depuis Mistral OCR. Les feuilles de calcul, les emails et les documents texte sont traités avec des parsers. Le chargement des documents peut être personnalisé, tout comme le type de chunking (au caractère, au token, en respectant des balises Markdown, à l’aide de séparateurs). Les documents et les chunks peuvent être enrichis à l’aide de métadonnées ou des descriptions produites par des LLM. Les vecteurs sont générés à l’aide de modèles mis à disposition par la startup.

Pour l’indexation, et la recherche, Mistral AI s’appuie sur la plateforme Vespa. À l’instar d’Elasticsearch ou d’OpenSearch, elle inclut des mécanismes de recherche hybride combinant vecteurs et recherche par mot clé à l’aide de l’algorithme BM25. La startup met aussi à disposition de ses clients plusieurs mécanismes de reranking, propulsé par des LLM ou des encodeurs dédiés (dont MS Marco). Un pipeline permet par ailleurs de faire passer une batterie de tests à ce système RAG. CMA-CGM, ainsi que des services financiers, des entreprises du manufacturing, des médias et du secteur public auraient déjà mis à l’épreuve le kit.

Maîtriser l’infrastructure de bout en bout (et les réentraînements)

Les LLM de Mistral AI, ainsi qu’une bonne partie des outils peuvent être déployés sur site ou sur des infrastructures gérées en France par l’entreprise. C’est là la particularité de Mistral. La startup met surtout en avant ses futures capacités de calcul. Elle envisage de sécuriser 200 mégawatts d’ici 2027 et vise le gigawatt en 2030. En la matière, elle a annoncé la location de 10 MW dans un data center installé aux Ulis en Essonne au troisième trimestre 2026, en sus de celui qui lui est mis à disposition par Eclairion à Bruyères-Le-Châtel. [Le data center des Ulis] sera utilisé pour tous nos besoins d’inférence », annonce Timothée Lacroix. « Il s’agit de sécuriser de la puissance de calcul non seulement pour nous, mais aussi pour nos clients ».

Les 40 MW du data center d’Eclairion sont déjà exploités pour entraîner des LLM depuis le début de l’année 2026. À Borlänge, en Suède, seront installées les plateformes Vera Rubin de Nvidia en 2027.

Ces instances serviront entre autres à propulser Mistral Forge, la suite de l’éditeur consacrée à l’affinage de ses modèles par les entreprises. « Avec nos modèles open weight, vous pouvez les entraîner sur toutes vos données d’entreprise que vous avez en quantité si vous êtes en activité depuis des décennies, voire davantage », avance Guillaume Lample, cofondateur et directeur scientifique de Mistral AI. « Ce que les gens ne comprennent pas avant de l’avoir fait, c’est ô combien un modèle peut être meilleur si vous l’affinez sur vos données. Et ce ne sera pas le même modèle que celui utilisé par des millions de gens ».

Selon Guillaume Lample, cela permet d’abaisser les coûts d’inférence et simplifier certains flux de travail, puisqu’il n’est plus nécessaire d’invoquer une bonne partie des documentations de présentation de l’entreprise. La même chose peut être appliquée à certaines tâches agentiques assignées à de plus petits modèles fine-tunés, ajoute Timothée Lacroix.

De plus petits modèles, multilingues et multimodaux

D’ailleurs, Mistral AI continuera de mettre l’accent sur les petits modèles de langage. « À l’ère de l’IA agentique, les modèles s’exécutent en arrière-plan, ils appellent beaucoup d’outils et exécutent beaucoup d’actions, donc ils consomment beaucoup plus de tokens qu’auparavant », explique Guillaume Lample. « Ce que nous observons aujourd’hui, c’est un retour des petits modèles ».

Sans oublier l’aspect multilingue et multimodal. Ces deux critères sont désormais inscrits au cahier des charges de tous les LLM de la startup. Pixtral, Magistral, Devstral ont disparu au profit de Mistral Medium 3.5.

Outre Mistral OCR, le modèle de transcription vocale Voxtral a évolué pour disposer de l’ensemble des fonctionnalités poussées par Gladia ou AssemblyAI. Prochainement, une prochaine variante combinera la transcription avancée et les réponses vocales en temps réel.

Dans un même temps, Mistral AI tentera de garder sa place face aux acteurs américains et chinois qui dominent les classements des plus grands modèles. « Nous travaillons sur l’entraînement de Mistral Large 4 qui sera lancé au cours de l’été », annonce Guillaume Lample.

Pour approfondir sur IA appliquée, GenAI, IA infusée