
Getty Images/iStockphoto
Mistral Small 3.1 reste frugal et devient multimodal
Avec le LLM multimodal Mistral Small 3.1, Mistral AI se tient au niveau de ses concurrents Anthropic, Cohere, OpenAI et Google tout en maintenant son double cap souverain et frugal.
En janvier, Mistral AI lançait Mistral Small 3, troisième itération d’un LLM capable de rivaliser avec GPT-4o mini.
Cette semaine, le fournisseur français en a proposé une variante mise à jour sous l’appellation Mistral Small 3.1. Il fallait rivaliser avec Gemma 3. Cette sortie s’inscrit dans une tendance visant à réduire la puissance de calcul nécessaire pour l’exécution de modèles à un ou deux GPU.
C’est, à nouveau, un modèle « open weight » (les poids sont sous licence Apache 2.0) de 24 milliards de paramètres. Il est doté d’une fenêtre de contexte de 128 000 tokens, contre 32 000 pour Small 3. Son tokenizer (Tekken) doté d’un vocabulaire de 131 000 tokens passe en version 7. Une fois compressé en FP8 (8 bits), il tient sur une carte graphique « prosumer » Nvidia RTX 4090 (24 Go de VRAM) ou sur un Mac doté d’un SoC Apple Silicon M et de 32 Go de mémoire vive.
Dans sa variante BF16, le modèle pèse 48 Go, ce qui veut dire qu’au moins un GPU Nvidia H100 ou A100 (80 Go de VRAM). Comme son aîné, il génère jusqu’à 150 tokens par seconde.
Un VLM pour des déploiements Edge
Dérivé de Mistral Small 3 (autrement nommé Mistral-Small-24B-2501), Small 3.1 a tout de même pour lui quelques avantages. D’abord, la startup y adjoint un encodeur « Transformer Vision » pour le doter d’une capacité « image to text ».
« Mistral Small 3.1 peut être utilisé dans diverses applications d’entreprise et grand public qui nécessitent une compréhension multimodale », indique la startup. Cela peut être « la vérification de documents, les diagnostics, le traitement d’images sur appareil, l’inspection visuelle pour les contrôles de qualité, la détection d’objets dans les systèmes de sécurité, l’assistance clientèle basée sur l’image et l’assistance générale ».
Il faudra toutefois fournir un effort de quantization pour en bénéficier dans des environnements contraints.
De plus, Mistral fournit des éléments pour développer des applications de chat et des appels de fonction, la fondation nécessaire à l’IA agentique.
Ici, la startup tente d’obtenir un modèle équilibré, adapté aux besoins du grand public et des entreprises, opérant dans une douzaine de langues et pouvant être exécuté localement. Et le pari semble réussi, au vu de ses benchmarks internes. Mistral Small 3.1 surpasse ou égale GPT-4o mini, Claude 3.5 Haiku, Gemma 3 27B Instruct et Cohere Aya Vision dans toutes les tâches exécutées.
Mistral AI encourage le fine-tuning
La startup le sait. Aussi bon soit-il, un modèle de langage-vision généraliste n’est utile que s’il est accompagné d’outils. Ou s’il sert de base pour entraîner des modèles spécialisés.
Ainsi, Mistral AI continue de fournir des versions instruites et de base de ses modèles. D’autres, comme le laboratoire Nous Research, se sont appuyé sur Mistral Small 3 pour entraîner un modèle de raisonnement. L’acteur français espère le même intérêt pour Small 3.1.
Par ailleurs, « Mistral Small 3.1 peut être affiné pour se spécialiser dans des domaines spécifiques. Ceci est particulièrement utile dans des disciplines telles que les consultations juridiques, les diagnostics médicaux et l’assistance technique ».
En sus de Hugging Face, les deux checkpoints de la collection sont disponibles depuis la Plateforme, Google Cloud Vertex AI, et, prochainement depuis Nvidia NIM et Azure AI Foundry.