Getty Images

Small 3 : Mistral AI a son équivalent de GPT-4o mini en local

Relativement petit, rapide, « open weight » et aussi performant que GPT-4o mini. Voilà les arguments principaux de Mistral AI pour vanter les mérites de Mistral Small 3.

Ce grand modèle de langage de 24 milliards de paramètres tient dans la mémoire d’un seul GPU Nvidia RTX 4090 une fois compressée. Cette carte « prosumer » dotée de 24 Go de VRAM sera bientôt remplacée par la RTX 5090, dotée de 32 Go de VRAM. Les possesseurs de Mac peuvent également s’appuyer sur la « quantization » (la compression des poids) pour le faire tenir dans 32 Go de mémoire vive. Sinon, le LLM occupe 55 Go de VRAM en bf16 ou fp16 (le fichier pèse 47,16 Go). C’est bien moins que les 900 à 1 600 Go de VRAM réclamé par DeepSeek-R1.

L’inférence locale à vitesse grand V

Ces précisions ne sont pas anodines. C’était l’objectif de la startup. « Nous avons conçu ce nouveau modèle pour saturer les performances à une taille adaptée au déploiement local », indiquent les ingénieurs de Mistral AI. « En particulier, Mistral Small 3 comporte beaucoup moins de couches que les modèles concurrents, ce qui réduit considérablement le temps nécessaire à chaque passage », ajoutent-ils.

Ce n’est pas la première fois que Mistral AI vise cet objectif. La jeune pousse avait lancé les Ministraux, de petits modèles de 3 et 8 milliards de paramètres.

« Avec une précision de plus de 81 % sur MMLU et une latence de 150 tokens par seconde, Mistral Small 3 est actuellement le modèle le plus efficace de sa catégorie », vantent les ingénieurs de Mistral AI.

Selon les parangonnages présentés par la startup, Small 3 obtient des performances similaires ou légèrement supérieures à Llama 3.3 70B-Instruct, Qwen 2.5 32B Instruct, Gemma 2 27B instruct et GPT-4o mini 2024-07-18. Des performances validées (à la baisse) par des humains.

Mistral Small 3 est une version affinée (fine-tuned) et instruite de Mistral Small Base 24B-2501. Ce modèle dense – et non mixture of experts comme DeepSeek – dispose d’une fenêtre de contexte de 32 000 tokens. Son tokenizer, Tekken (v3), a un vocabulaire de 131 000 tokens. Le LLM prend en charge une douzaine de langues, dont les langues européennes et asiatiques.

Contrairement à DeepSeek, la startup française assure ne pas avoir exploité de données synthétiques générées par un autre LLM ou de techniques d’apprentissage par renforcement.

Mistral Small 3 « se situe plus tôt dans le pipeline de production de modèles, que des modèles tels que Deepseek R1 (une technologie ouverte formidable et complémentaire !). Il peut servir de modèle de base pour développer les capacités de raisonnement accumulées », avance la startup.

« Nous sommes impatients de voir comment la communauté open source l’adoptera et le personnalisera ».

Apache 2.0, le retour

Oui. Alors qu’elle avait adopté sa propre licence propriétaire permissive, Mistral AI revient à la licence Apache 2.0 pour les poids de Small 3 (note aux rédactions grand public : il est donc « open weight », pas open source !). Elle n’avait jamais exclu cette possibilité, mais l’effervescence autour de DeepSeek a sans doute été un argument supplémentaire pour la convaincre de faire machine arrière. Toutefois, il est plus probable que la startup réponde à une demande expresse de ses clients.

Mistral AI assure que Small 3 excelle dans des scénarios nécessitant des réponses rapides et précises, comme les assistants virtuels et les workflows automatisés. Il peut être affiné pour se spécialiser dans des domaines spécifiques, comme le droit, la médecine ou le support. Très appréciée par les amateurs d’IA, l’inférence locale s’avère utile pour traiter des informations sensibles, rappelle la startup.

« Nos clients évaluent Mistral Small 3 dans de nombreux secteurs d’activité, notamment les services financiers pour la détection des fraudes ; les soins de santé pour le triage des patients ; les entreprises de robotique, d’automobile et de fabrication pour la commande et le contrôle sur appareil », liste Mistral AI. « Les cas d’usage horizontaux chez les clients comprennent le service clientèle virtuel ainsi que l’analyse des sentiments et des retours d’information ».

Small 3 est disponible sur Huggingface, Ollama, Kaggle, TogetherAI, Fireworks AI. En sus de la Plateforme, le LLM sera bientôt accessible depuis Nvidia NIM, AWS SageMaker, Groq, Databricks et Snowflake.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM