Sergey Nivens - stock.adobe.com

Magistral : Mistral lance son concurrent de DeepSeek R1 et OpenAI o3

À la veille de Vivatech 2025, Mistral AI lance ses premiers modèles de raisonnement. S’ils ne sont pas aussi performants que les ténors du genre, la startup présente quelques atouts qui pourraient convaincre les développeurs et les entreprises.

Après Devstral, l’API Mistral Agents, le modèle d’embedding Codestral Embed et l’assistant de programmation Mistral Code, voilà que la startup française annonce Magistral.

Sous ce nom grandiloquent se cache le premier modèle de raisonnement de Mistral AI. Il est décliné en deux variantes. L’une est « open weight » (sous licence Apache 2.0), dotée de 24 milliards de paramètres, et est nommée Magistral Small. L’autre, propriétaire, se nomme Magistral Medium.

Une fois n’est pas coutume, cette annonce est accompagnée d’un rapport technique détaillé. Le document et la page Huggingface de l’éditeur indiquent que la startup s’est appuyée sur Mistral Small et Medium 3.1 comme fondation des deux LLM Magistral.

Contrairement à la plupart de ses concurrents, la startup ne s’est pas appuyée sur des « traces » en provenance d’autres modèles de raisonnement. Mistral AI affirme avoir développé son propre pipeline d’apprentissage par renforcement à partir de récompenses vérifiables (Reinforcement Learning from Verifiable Rewards ou RLVR).

Une adaptation libre de la méthode DeepSeek

Mistral AI ne s’appuie pas sur la technique de l’optimisation des politiques proximales (Proximal Policy Optimization), qui requiert un algorithme de classification, mais sur la méthode Group Relative Policy Optimization (GRPO). Cette technique a été mise sur pied par DeepSeek et consiste à utiliser la moyenne des récompenses issues de différents résultats lors de l’apprentissage par renforcement. La startup a optimisé l’approche à ses besoins, notamment en matière d’exactitude des résultats en mathématiques et en programmation.

« Pour éviter le changement de langue, nous avons traduit 10 % de nos problèmes rédigés en anglais dans les langues suivantes : français, espagnol, italien, allemand, chinois et russe. »
Chercheurs de Mistral AI

Mistral AI a aussi fait en sorte d’éviter que ses modèles de raisonnement répondent en mélangeant deux ou trois langues, un problème récurrent signalé rapidement par DeepSeek.

« Pour éviter le changement de langue, nous avons traduit 10 % de nos problèmes rédigés en anglais dans les langues suivantes : français, espagnol, italien, allemand, chinois et russe », expliquent les chercheurs de Mistral AI. Cela n’empêche pas le fait que les performances sont 4,3 à 9,9 % meilleures en anglais que dans les autres langues sur les benchmarks scientifiques AIME. Ainsi, Medium pourrait « raisonner » dans chacune de ces langues en s’adaptant à la demande de l’utilisateur.

Outre une explication détaillée de l’architecture de son pipeline d’entraînement et des différentes étapes qui le compose, Mistral AI explique qu’elle a formaté les données d’entraînement pour résoudre des problèmes de code et de mathématiques.

À partir de 700 000 échantillons mathématiques, Mistral AI a sélectionné à l’aide d’un système de règles, une version fine-tunée de Mistral Large 2 et une classification basée sur la difficulté environ 38 000 problèmes et leurs solutions. La startup a appliqué une méthode similaire pour sélectionner 35 000 problèmes de code et leurs solutions.

Le tout a servi lors de la phase d’apprentissage par renforcement de Magistal Medium.

Au cours de l’entraînement, plus Magistral Medium devenait performant, plus les chercheurs ont augmenté la difficulté des problèmes soumis. Dans un même temps, il a fallu régler les poids du modèle afin de ne pas « punir » les résultats longs. En revanche, puisque les résultats générés étaient de plus en plus grands, Mistral AI a divisé par deux fois la taille des batchs en entrée, dans le but de ne pas saturer la mémoire allouée au KV Cache.  

Les traces de Magistral Medium – ses résultats et ses cheminements de pensées – ont ensuite été utilisées pour réaliser une phase d’apprentissage supervisé de Mistral Small 3.1 avant une autre phase d’apprentissage par renforcement qui a donné Magistral Small.

Lors de la phase d’apprentissage supervisé de Magistral Small, Mistral AI a davantage mélangé les prompts et les niveaux de difficulté. « Nous constatons que la diversité des prompts est importante pour un [bon] départ à froid du raisonnement », écrivent les chercheurs de Mistral AI.

Pas encore des ténors du genre

En revanche, la startup signale que sa recette pour obtenir des modèles de raisonnement limite la fenêtre de contexte. Par exemple, avec Magistral Small, les performances sont dégradées après 40 000 tokens en sortie, alors que la fenêtre de contexte atteint théoriquement 128 000 tokens.

Magistral Medium affiche des résultats proches de DeepSeek R1 Zero et R1, sans toutefois dépasser ce concurrent dans les mêmes conditions de tests.

In fine, Magistral Medium affiche des résultats proches de DeepSeek R1 Zero et R1, sans toutefois dépasser ce concurrent dans les mêmes conditions de tests. Les scores de Magistral Small sont légèrement plus faibles que ceux de Magistral Medium.

Dans les faits, les deux LLM de Mistral AI présentent des résultats derrière les ténors du raisonnement : Google Gemini 2.5 Pro, Claude Opus 4 et OpenAI o3. Toutefois, la startup française a déjà promis d’itérer régulièrement afin d’affiner sa méthode et les résultats de ses futurs modèles.

De petits modèles rapides

 Il y a toutefois deux bonnes nouvelles.

Premièrement, bien que Magistral Medium et Small ont été entraînés exclusivement avec des données textuelles, ils n’ont pas perdu les capacités multimodales de leur base Mistral Small et Medium. Mieux, ils affichent des scores plus élevés sur les évaluations génériques.

Deuxièmement, Magistral Small n’a besoin que d’un seul GPU RTX 4090 24 Go de VRAM, ou de son équivalent cloud Nvidia A10, pour s’exécuter. Les responsables du framework Unsloath proposent déjà une version adaptée de Magistral Small aux ordinateurs Apple Silicon dotés d’au moins 32 Go de RAM.

 Sur le papier, il y a neuf points d’écart entre Magistral Small et R1 sur le benchmark AIME 24 (70,7 % vs 79,8 %), ce qui semble beaucoup et peu à la fois.

Magistral Small est accessible sur Hugging Face, tandis que Medium est disponible en préversion sur La Plateforme et Le Chat. Depuis l’assistant concurrent de ChatGPT – Le Chat –, le modèle de raisonnement profite de la fonction Flash Answers issue de l’usage des puces IA de Cerebras. Magistral Medium fournirait des réponses jusqu’à 10 fois plus rapidement que ses concurrents. Dans une comparaison présentée par Mistral, Medium raisonne et répond en dix secondes, quand o1 depuis ChatGPT met 40 secondes, soit une vitesse 4 fois plus élevée. À ceci près que le raisonnement semble plus détaillé du côté d’OpenAI.

Pour autant, l’entreprise assure que ses clients pourront obtenir les traces de chaque réponse des modèles de raisonnement et qu’ils sont adaptés aux besoins de recherche, d’optimisation de recherche, de prise de décision à partir de données et de programmation.

Magistral Medium est disponible, ou le sera, sur Amazon SageMaker, IBM Watsonx, Azure AI, entre autres. Pour les déploiements sur site, il faudra contacter l’équipe commerciale de Mistral AI.

Pour approfondir sur IA appliquée, GenAI, IA infusée