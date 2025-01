Ce grand modèle de langage de 24 milliards de paramètres tient dans la mémoire d’un seul GPU Nvidia RTX 4090 une fois compressée. Cette carte « prosumer » dotée de 24 Go de VRAM sera bientôt remplacée par la RTX 5090, dotée de 32 Go de VRAM. Les possesseurs de Mac peuvent également s’appuyer sur la « quantization » (la compression des poids) pour le faire tenir dans 32 Go de mémoire vive. Sinon, le LLM occupe 55 Go de VRAM en bf16 ou fp16 (le fichier pèse 47,16 Go). C’est bien moins que les 900 à 1600 Go de VRAM réclamé par DeepSeek-R1.

L’inférence locale à vitesse grand V Ces précisions ne sont pas anodines. C’était l’objectif de la startup. « Nous avons conçu ce nouveau modèle pour saturer les performances à une taille adaptée au déploiement local », indiquent les ingénieurs de Mistral AI. « En particulier, Mistral Small 3 comporte beaucoup moins de couches que les modèles concurrents, ce qui réduit considérablement le temps nécessaire à chaque passage », ajoute-t-il. Ce n’est pas la première fois que Mistral AI vise cet objectif. La jeune pousse avait lancé les Ministraux, de petits modèles de 3 et 8 milliards de paramètres. « Avec une précision de plus de 81 % sur MMLU et une latence de 150 tokens par seconde, Mistral Small 3 est actuellement le modèle le plus efficace de sa catégorie », vantent-ils. Selon les parangonnages présentés par la startup, Small 3 obtient des performances similaires ou légèrement supérieures à Llama 3.3 70B-Instruct, Qwen 2.5 32B Instruct, Gemma 2 27B instruct et GPT-4o mini 2024-07-18. Des performances validées (à la baisse) par des humains. Mistral Small 3 est une version affinée (fine-tuned) et instruite de Mistral Small Base 24B-2501. Ce modèle dense – et non mixture of experts comme DeepSeek – dispose d’une fenêtre de contexte de 32 000 tokens. Son tokenizer, Tekken (v3) a un vocabulaire de 131 000 tokens. Le LLM prend en charge une douzaine de langues, dont les langues européennes et asiatiques. Contrairement à DeepSeek, la startup française assure ne pas avoir exploité de données synthétiques générées par un autre LLM ou de techniques d’apprentissage par renforcement. Mistral Small 3 « se situe plus tôt dans le pipeline de production de modèles que des modèles tels que Deepseek R1 (une technologie ouverte formidable et complémentaire !). Il peut servir de modèle de base pour développer les capacités de raisonnement accumulées », avance la startup. « Nous sommes impatients de voir comment la communauté open source l’adoptera et le personnalisera ».