Dmitry - stock.adobe.com

Mistral 3 : Mistral AI veut faire jeu égal avec ses compétiteurs chinois

Le fournisseur de LLM lance Mistral 3, une collection de modèles open weight répartis en deux volets : un grand modèle prévu pour s’exécuter dans le cloud et trois petits LLM parés pour l’inférence locale. Mistral AI ne bat pas ses concurrents, mais garde son rang auprès de Qwen d’Alibaba, DeepSeek, Kimi et Google Gemma.

La saison des LLM se poursuit. Et cette fois-ci c’est au tour de Mistral AI d’inaugurer Mistral 3, une collection incluant à la fois les modèles Mistral Large 3 et Ministral 3.

Mistral Large 3 signe un retour à l’approche SMoE

Mistral Large 3 est un modèle à mélange d’experts épars (Sparse Mixture of Experts, SMoE) de 673 milliards de paramètres et doté d’une fenêtre de contexte de 256 000 tokens. Du fait de sa nature, il n’active que 39 milliards de paramètres à l’inférence. D’après les informations techniques disponibles, il semble reprendre l’architecture de Llama 4 de Meta. Il est couplé avec un encodeur pour le traitement d’image contenant 2,5 milliards de paramètres. Au total, environ 41 milliards de paramètres sont utilisés à l’inférence.

De la sorte, il peut être déployé sur un nœud (un serveur) équipé de huit GPU Nvidia B200 ou H200 en FP8.

Un coup de main de la part de Nvidia et Red Hat

Avec la compression NVFP4, réalisé à l’aide de LLM Compressor de Neural Magic (filiale de Red Hat et papa de vLLM), le fournisseur s’exécute « efficacement » sur un système GB200 NVL72. Mais il est également possible d’utiliser ce checkpoint à l’aide de vLLM sur des nœuds dotés de huit A100 ou huit H100, des GPU qui ne prennent pas nativement en charge le format d’encodage FP4.

Ce n’est que la deuxième fois que Mistral AI s’essaye à l’architecture SMoE, après la collection Mixtral (8x7B et 8x22B). Mistral Large 2 est un modèle dense. Cette fois-ci, la startup a eu un accès à un total de 3 000 GPU H200 pour entraîner son modèle.  

Elle a bénéficié de l’aide de Nvidia et de Red Hat afin d’optimiser les différents modèles pour ses GPU. « Les ingénieurs de NVIDIA ont mis en place un support d’inférence efficace pour TensorRT-LLM et SGLang pour l’ensemble de la famille Mistral 3, afin d’assurer une exécution efficace en basse précision », assure Mistral AI.

En outre, contrairement à son aîné, Large 3 est open weight (licence Apache 2.0). D’ailleurs, le fournisseur de LLM français ne le compare pas avec Claude d’Anthropic, GPT-5 d’OpenAI ou Gemini 3 Pro de Google, mais avec les LLM chinois open weight Qwen 3, Kimi K2 et DeepSeek v3.2 ou 3.1. Les résultats affichés sont comparables à ses concurrents.

Mistral AI considère que ce grand modèle de langage est adapté au traitement de longs documents, le développement d’assistants IA avancés, d’outils agentiques (un effort a été fait sur le suivi des instructions), la programmation et les systèmes RAG en entreprise.

Entraînement et données : un zeste de transparence grâce à l’AI Act

Du fait de l’application progressive de l’AI Act, Mistral AI fournit désormais une fiche technique par LLM. Celle-ci dévoile à gros trait les traitements opérés sur les données.

« Ce modèle a été entraîné, testé et validé sur un ensemble de données diversifié composé de textes et d’images, couvrant plusieurs langues et zones géographiques, et issu d’une variété de sources sélectionnées afin d’assurer une large couverture et un apprentissage de haute qualité », peut-on lire depuis le centre légal de Mistral AI. « Cela comprenait des informations publiques disponibles sur Internet, des jeux de données non publics avec l’autorisation de tiers, ainsi que des données générées synthétiquement en interne ». Le fournisseur utilise également les données en provenance de Le Chat ou Mistral AI Studio.

En revanche, il évoque une « combinaison propriétaire de méthodes » pour filtrer les données, minimiser le surapprentissage et réaliser des évaluations de sécurité.  

Toutefois, le cabinet Artificial Analysis juge que les scores sont inférieurs aux modèles chinois, à Claude Opus 4.5 et GPT 5.1 sur le volet sans raisonnement. « Le modèle Mistral présentant le plus haut score sur notre Intelligent Index est Magistral Medium 1.2, un modèle propriétaire », précisent les analystes. Large 3 représente toutefois un bond par rapport à son prédécesseur. « Mistral Large 3 est à la traîne par rapport aux autres modèles frontières, mais se distingue comme l’un des modèles multimodaux non déductifs les plus “intelligents” parmi les modèles à poids ouverts », salue le cabinet indépendant. Et de le placer non loin derrière GPT-5.1 sur son index.

Une variante de Mistral Large 3 consacrée au raisonnement est en cours d’entraînement. Mistral AI sait que le modèle lancé hier n’est pas adapté à ce mode de fonctionnement. La société française précise par ailleurs que Large 3 n’est pas aussi efficaces que d’autres modèles pour les usages multimodaux et que le déploiement, de ce modèle de grande taille n’est pas à la portée de tous.

Ministral 3 : de petits LLM multimodaux rapides et « au-dessus de la moyenne », selon Artificial Analysis

Justement, Ministral 3, une sous-collection de modèles denses multimodaux de 14, 8 et 3 milliards de paramètres doit répondre aux usages sur des environnements informatiques plus contraints. Ceux-là ont été déclinés dans des variantes « instruites » (pour animer un équivalent de ChatGPT, par exemple) et de raisonnement. Les trois modèles ont la particularité de disposer d’une fenêtre de contexte de 256 000 tokens, ce qui est beaucoup pour leur taille. Un encodeur de 400 millions de paramètres consacré au traitement des images en entrée est infusé dans ces trois LLM. Le fichier de configuration laisse entrevoir une architecture « maison ».

Ils sont disponibles à travers des checkpoints encodés en FP8. Ministral 3-14B n’a besoin que de 24 Go de VRAM (et de moins s’il est compressé), Ministral 3-8B tient sur 12 Go de VRAM et Ministral 3-3B sur 8 Go. En clair, ils peuvent s’exécuter sur des cartes graphiques grand public, des RTX 5060 au RTX 5090. Des cartes plus anciennes peuvent être compatibles. « Par défaut, les Transformers chargeront le point de contrôle en FP8 et le déquantifieront en BF16 à la volée, ce qui signifie que le modèle n’utilise pas actuellement les kernels FP8 », la documentation de Mistral. La prise en charge native des kernels FP8 devrait être disponible d’ici à deux semaines.

Cette fois, les Ministral 3 jouent à jeu égal avec les modèles Qwen3 VL 14B, 8B, 4B et avec Gemma 3 12B Instruct, selon la startup. Assistant de programmation, appel de fonction, sorties structurées, FAQ : les usages sont toutefois plus restreints qu’avec Mistral Large 3. Selon Artificial Analysis, Ministral 3-14B est « bien au-dessus de la moyenne » de son baromètre et il est rapide (152 tokens/s). Toutefois, il est jugé verbeux. Via API, il serait l’un des plus chers de sa catégorie.

En clair, Mistral AI se maintient au niveau de la compétition. « Ces nouveaux modèles de Mistral ne constituent pas un changement radical par rapport à la concurrence open weight, mais ils représentent une base de performance solide avec des capacités de vision », considère Artificial Analysis. « Les variantes Ministral 8B et 14B offrent des performances particulièrement convaincantes pour leur taille ».

Les modèles sont largement disponibles sur Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Ollama et Together AI. Ils seront prochainement listés sur le catalogue Nvidia NIM et au sein d’Amazon SageMaker.

Sans surprise, Mistral AI met l’emphase sur ses services de fine-tuning dédiés aux entreprises. « Qu’il s’agisse d’optimiser des tâches spécifiques à un domaine, d’améliorer les performances sur des jeux de données propriétaires ou de déployer des modèles dans des environnements spécifiques, notre équipe collabore avec vous pour construire des systèmes d’IA qui s’alignent sur vos objectifs », promet la startup.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM