Forge : Mistral AI tente de se différencier par la personnalisation de ses LLM
Mistral AI est clairement à la traîne face à ses concurrents américains et chinois. Malgré tout, il compte se différencier en proposant un service d’affinage et de réentraînement pour les usages critiques et spécifiques. Il dévoile aussi deux LLM open weight : Mistral Small 4 (raisonnement et suivi d’instructions) et Leanstral (programmation). Ils sont candidats à cette personnalisation.
Comme la plupart des fournisseurs de LLM, Mistral AI mise sur l’IA agentique. Toutefois, les dirigeants de la startup n’oublient pas leur sacerdoce. Les données privées des entreprises sont la clé pour débloquer les cas d’usage les plus utiles. D’où le lancement de Forge, un service de personnalisation de ses modèles de langage.
D’autres solutions similaires existent chez les hyperscalers. Ils se concentrent exclusivement sur le post-entraînement, c’est-à-dire la phase finale d’affinage. Par exemple, à travers Bedrock, AWS fournit des offres de fine-tuning supervisé, d’apprentissage par renforcement et de distillation (transfert de connaissances).
L’ancienne version de Microsoft Foundry, désormais nommé « classic » permet d’appliquer des techniques de fine-tuning supervisés, d’optimisation directe des préférences (DPO) et d’apprentissage par renforcement sur des modèles GPT-4 et 4,1, ainsi que ceux de Mistral AI, entre autres. À travers Vertex AI, Google propose de fine-tuner légèrement ou en entièrement Gemini 2.5 Pro, 2.5 Flash et 2.5 Flash Lite. OpenAI conduit une initiative similaire pour ces modèles.
Forge : une offre de réentraînement « de bout en bout »
Chez Mistral AI, préparation de données, alignement sur le domaine, évaluation, mais aussi (et c’est plus rare) préentraînement sont au programme.
Avec Forge, Mistral dit assurer la prise en charge des modèles denses et Mixture of Experts. Ici, le préentraînement vise à apprendre au LLM le « langage et les concepts spécifiques à l’entreprise » à partir de grands volumes de données non structurées.
En matière de fine-tuning, Mistral AI propose de manière assez classique d’adopter les approches RLHF (apprentissage par renforcement à partir de retours humains). Elle fournit un support pour la technique LoRA (Low-Rank Adaptation) moins coûteuse et efficace pour les usages très précis, ainsi que du fine-tuning supervisé et de l’optimisation directe des préférences.
Le service comprend la génération de données synthétiques pour amplifier les volumes, notamment quand les cas sont rares.
Le tout peut être évalué à travers des indicateurs clés de performance, des tests de régression et des systèmes de détection de dérive.
En outre, Forge promet le « versionnage complet » des expérimentations et la traçabilité des entraînements. Le « retour en arrière » (rollback) serait sécurisé.
La startup dit avoir convaincu un des investisseurs, ASML, l’agence spatiale européenne, Reply, Ericsson, les laboratoires nationaux de Singapour et son agence technologique et scientifique HTX d’adopter Forge. De manière générale, Mistral AI vise les agences gouvernementales, les institutions financières, les équipes logicielles, les industriels et les grands groupes avec de gros historiques de données.
Les porte-parole de Microsoft, Google, OpenAI et AWS n’insistent pas réellement sur l’existence de ces services. Le processus est perçu comme complexe et coûteux. Il y a fort à parier que les consultants de Mistral AI soient nécessaires pour profiter au mieux de Forge. Les coûts du service ne sont pas dévoilés.
Toutefois, le fournisseur français a une autre corde à son arc : la possibilité de modifier ses modèles open weight. En clair, l’entreprise cliente peut détenir à la fois les modèles et les données.
Mistral Small 4 : la synthèse des modèles Small, Magistral et Devstral
D’ailleurs, Mistral AI dispose d’un nouveau candidat à cet exercice de spécialisation : Mistral Small 4.
Sous licence Apache 2.0, le modèle s’appuie sur une architecture Mixture of Experts. Il inclut 128 experts, 4 actifs par token. Le LLM multimodal (texte, image en entrée, texte en sortie) arbore 119 milliards de paramètres, dont 8 milliards actifs (6 sans le décodeur d’images). Sa fenêtre de contexte atteint 256 000 tokens. Il a aussi des capacités de raisonnement ajustable, comme les modèles d’OpenAI et d’Anthropic.
Mistral AI aurait réduit de 40 % le temps de complétion d’une tâche, et Small 4 gérerait trois fois plus de requêtes par seconde que son prédécesseur. La startup assure qu’il consolide les capacités « de Magistral (raisonnement), Devstral (programmation et agentique) et Mistral Small (respect des instructions, chatbot) ».
Mistral Small 4 égale la plupart du temps les performances de Magistral Medium 1.2 et dépasse à peine GPT-OSS 120B. Il est distancé par Claude Haiku et Qwen 3.5 122B. À ceci près que Small 4 serait plus efficient que ses concurrents, d’après les tests de la startup.
Artificial Analysis le place derrière GPT-OSS 120B sur son classement Intelligence Index. Mais il serait largement au-dessus de la moyenne de sa catégorie. Malgré les réductions de volume de tokens vantées par la startup, le cabinet considère que Mistral Small 4 est très verbeux (52 millions de tokens pour effectuer le test), plus que GPT-OSS 120B (44 millions de tokens). Il est malgré tout rapide (153 tokens par seconde). GPT-OSS 120B est plus rapide (279 tokens par seconde).
En réalité, Mistral Small 4 n’est pas vraiment comparable à Small 3. Ce dernier est un modèle dense de 24 milliards de paramètres. Small 4 ressemble davantage à Magistral Medium 1.2. Là encore, le modèle propriétaire consomme moins de tokens quand il est confronté aux tests d’Artificial Analysis (43 millions de tokens). Il est effectivement trois fois moins rapide que Mistral Small 4.
Mistral Small 4 aurait besoin de quatre Nvidia HGX H100 ou quatre HGX H200 ou deux DGX B200 pour s’exécuter de manière optimale. Il semble efficient pour un modèle MoE, mais il requiert des capacités de calcul importantes sans compression.
Leanstral : un LLM de programmation moins performant que ses concurrents, mais beaucoup moins cher à exécuter
Mistral lance également Leanstral, un « agent de programmation » conçu pour fonctionner à l’aide du projet open source Lean4. Lean 4 est un langage de programmation et un assistant « de preuve formelle mathématique ». Il est ici exploité pour vérifier la pertinence et l’exactitude mathématique du code généré.
Leanstreal est en fait un autre modèle de langage open weight, dédié au code. Doté d’une architecture Mixture of Experts, Leanstral s’appuie sur la même fondation que Mistral Small 4. Il dispose de 119 milliards de paramètres, dont 6,5 milliards actifs et une fenêtre de contexte de 256 000 tokens (mais le fournisseur recommande d’en utiliser moins de 200 000). Là, la startup française dit faire mieux que les modèles chinois Qwen 3.5 397B-A17B, GLM5-744B-A40B et Kimi K2.5-1T-A32B. Des LLM bien plus grands.
À partir de son outil Mistral Vibe, Mistral compare les performances de son LLM avec celles de Claude Sonnet et Opus 4.6 sur un parangonnage ouvert lancé par la startup, nommé FLTEval.
Quand Leanstral obtient un score de 21,9 et vaudrait 18 dollars pour passer le test, Sonnet 4.6 décroche un score de 23,7, mais coûterait 549 dollars. Opus 4.6 recueille un score de 39,6 sur 100, mais la tâche serait facturée 1650 dollars.
Mistral prévoit de détailler son approche d’entraînement dans un rapport technique et propose pour le moment un accès gratuit au modèle à travers une API et Mistral Vibe. LeMagIT n’a pas trouvé de parangonnage tiers. Il faut donc prendre les résultats affichés par la startup française avec des pincettes, comme avec tous les fournisseurs.
Reste à savoir si ce modèle et cette approche ont une place face aux mastodontes du marché. La simplicité d’usage et les capacités de Claude et de ChatGPT ont imposé ces applications auprès du grand public et par extension des employés. Leanstreal pourrait néanmoins être personnalisé pour les besoins d’une entreprise.
Photo d'Arthur mensh, confondateur et DG de Mistral AI. © Gaétan Raoul
