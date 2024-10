Comme Mistral 7B et Llama 3.1, les Ministraux sont fondés sur une architecture dense, plus simple à maîtriser que les architectures hybrides MLP et SMoE (Sparse Mixture of Experts).

Outre le petit nombre de paramètres, ces modèles sont théoriquement dotés d’une fenêtre de contexte de 128 000 tokens, mais Mistral AI précise qu’elle tombe à 32 000 tokens avec vLLM, la librairie de choix pour les déploiements locaux.

Par ailleurs, ces LLM s’appuient sur Tekken v3, le tokenizer maison de Mistral AI.

Déploiement Edge et flux de travail « agentiques »

Le fournisseur a légèrement modifié sa fenêtre d’attention glissante. Celle-ci est dite « entrelacée ». Cette méthode a été mise en avant par les chercheurs de Google DeepMind dans le développement de Gemma 2. Il s’agit de combiner un mécanisme d’attention global (ici, Grouped Query Attention ou GQA) et un autre local, s’appuyant sur la fenêtre d’attention glissante, un des différenciants de Mistral 7B à sa sortie. Ce faisant, Mistral AI réduit la consommation de VRAM lors des interrogations des modèles.

C’est important, car la cible de déploiement privilégiée n’est autre que les équipements Edge et embarqués.

« Nos clients et partenaires nous demandent de plus en plus souvent une inférence locale et respectueuse de la vie privée, pour des applications critiques telles que la traduction sur appareil, les assistants intelligents sans internet, l’analytique locale et la robotique autonome », justifie Mistral AI dans son billet de blog. « Les Ministraux ont été conçus pour fournir une solution efficace en matière de calcul et de faible latence pour ces scénarios ».

Mistral AI dit répondre aux demandes des amateurs et des manufacturiers.

Autre usage possible des Ministraux : les déployer en coordination avec de plus gros LLM afin d’accomplir certaines tâches spécifiques et des tâches « agentiques ». Ces LLM prennent évidemment en charge les appels de fonction.

Comme d’habitude, la jeune société ne précise pas la quantité ni les sources de données utilisées lors de l’entraînement, mais seulement qu’elle a utilisé « une grande proportion de données multilingues et de code ».