Aliaksandr Marko - stock.adobe.c

Les Ministraux : Mistral AI lance des LLM à déployer localement

Mistral AI a présenté de nouveaux LLM tombant dans la catégorie des Small Language Models (SLM). Ils sont affectueusement surnommés les Ministraux. Ministral 3B et Ministral 8B doivent pouvoir s’exécuter sur des ordinateurs de bureau ou des appareils mobiles.

par

Gaétan Raoul, LeMagIT

Publié le: 17 oct. 2024

Comme Mistral 7B et Llama 3.1, les Ministraux sont fondés sur une architecture dense, plus simple à maîtriser que les architectures hybrides MLP et SMoE (Sparse Mixture of Experts).

Outre le petit nombre de paramètres, ces modèles sont théoriquement dotés d’une fenêtre de contexte de 128 000 tokens, mais Mistral AI précise qu’elle tombe à 32 000 tokens avec vLLM, la librairie de choix pour les déploiements locaux.

Par ailleurs, ces LLM s’appuient sur Tekken v3, le tokenizer maison de Mistral AI.

Déploiement Edge et flux de travail « agentiques »

Le fournisseur a légèrement modifié sa fenêtre d’attention glissante. Celle-ci est dite « entrelacée ». Cette méthode a été mise en avant par les chercheurs de Google DeepMind dans le développement de Gemma 2. Il s’agit de combiner un mécanisme d’attention global (ici, Grouped Query Attention ou GQA) et un autre local, s’appuyant sur la fenêtre d’attention glissante, un des différenciants de Mistral 7B à sa sortie. Ce faisant, Mistral AI réduit la consommation de VRAM lors des interrogations des modèles.

C’est important, car la cible de déploiement privilégiée n’est autre que les équipements Edge et embarqués.

« Nos clients et partenaires nous demandent de plus en plus souvent une inférence locale et respectueuse de la vie privée, pour des applications critiques telles que la traduction sur appareil, les assistants intelligents sans internet, l’analytique locale et la robotique autonome », justifie Mistral AI dans son billet de blog. « Les Ministraux ont été conçus pour fournir une solution efficace en matière de calcul et de faible latence pour ces scénarios ».

Mistral AI dit répondre aux demandes des amateurs et des manufacturiers.

Autre usage possible des Ministraux : les déployer en coordination avec de plus gros LLM afin d’accomplir certaines tâches spécifiques et des tâches « agentiques ». Ces LLM prennent évidemment en charge les appels de fonction.

Comme d’habitude, la jeune société ne précise pas la quantité ni les sources de données utilisées lors de l’entraînement, mais seulement qu’elle a utilisé « une grande proportion de données multilingues et de code ».

Battre Meta et Google avec leurs armes de prédilection

Ministral 8B et 3B surpasseraient leurs concurrents dans la plupart des benchmarks génériques de connaissances générales, de la langue, de mathématiques, de programmation. Mistral AI prétend vaincre les modèles Gemma 2 9B et 2,6 B ainsi que les Llama 3.2 8B et 3B sur leur terrain de prédilection.

« Un an seulement s’est écoulé depuis la sortie de Mistral 7B, et pourtant notre plus petit modèle actuel (Ministral 3B) le surpasse déjà dans la plupart des tests de référence », ajoute la startup.

Les deux branches de la collection de LLM sont disponibles sous une licence commerciale, mais Ministral 8B est le seul à bénéficier d’une licence propriétaire permissive à des fins de recherche.

Pour rappel, Mistral AI a récemment ajouté des licences propriétaires à sa liste. Même si le fournisseur ne s’interdit pas de publier des LLM open weight sous licence apache 2.0, ses efforts sont maintenant dirigés vers ses LLM commerciaux.

Ainsi, les Ministraux sont accessibles depuis les API cataloguées dans La Plateforme. L’inférence de Ministral 8B coûte 0,09 centime d’euro pour 1 million de tokens en entrée et le même prix en sortie. L’appel à Ministral 3B est facturé 0,04 centime d’euro une fois en entrée et une fois en sortie sur la même base unitaire. Ils seront disponibles plus tard chez les fournisseurs cloud partenaires de la startup : GCP, AWS et Azure.

Pour les déploiements locaux de Ministral 3B, le fournisseur conseille à ses clients de le contacter afin qu’il puisse proposer la meilleure quantization ( compression des poids) possible suivant le cas d’usage.

« Nous avons développé notre propre pile d’apprentissage prenant en compte la quantification afin de compresser les modèles pour les adapter virtuellement à n’importe quelle puce », écrit Pierre Stock, chercheur chez Mistral AI, sur LinkedIn.

Selon la startup, Ministral 8B a besoin d’un GPU doté de 24 Go de VRAM pour fonctionner correctement. Cela correspond à la capacité d’une instance équipée d’un GPU Nvidia A10G ou d’une station de travail propulsé par une RTX 4090. Le fichier du modèle pèse 16 Go.

Les Ministraux doivent faire leurs preuves

Néanmoins, la politique de licence de la société ne plaît pas à tout le monde. Un petit nombre d’usagers des LLM open weight de Mistral « shootent » les Ministraux (s’en plaignent) en commentaire sur Huggingface, à cause de la licence Mistral Research jugée trop restrictive. Comme Meta, Mistral AI exige les données personnelles et de contact de l’usager avant de lui donner accès aux LLM.

« Les benchmarks publiés par Mistral sont impressionnants, mais il est difficile de s’enthousiasmer pour de petits modèles Edge avec une licence de recherche Mistral non commerciale (pour le 8B) et une licence commerciale Mistral (pour le 8B et le 3B), étant donné l’existence des séries de modèles Llama 3.1 et 3.2 d’une qualité extrêmement élevée », affirme de son côté Simon Willison, cocréateur du framework Django, dans un billet de blog.

Sur X, les commentaires les plus nombreux concernent l’absence de Qwen 2.5B dans les benchmarks diffusés dans le billet de blog de Mistral.

Sous licence apache 2.0, le modèle open weight d’Alibaba offrirait – selon ces internautes – des performances supérieures à Ministral 3B. Il faudra attendre des benchmarks comparatifs pour se faire une idée plus concrète de cet écart supposé.

Reste surtout à voir si les entreprises s’emparent des Ministraux. Le centre d’excellence en IA générative de GRDF a récemment partagé un cas d’usage tactique s’appuyant sur un modèle « open weight », lui-même dérivé de Mistral 7B. Ce genre d’initiative semble la cible de la startup. Cependant, Mistral AI ne détaille pas le modèle commercial qu’il pratique, notamment s’il inclut le coût d’une licence et d’une forme de support.

Les Ministraux : Mistral AI lance des LLM à déployer localement

Mistral AI a présenté de nouveaux LLM tombant dans la catégorie des Small Language Models (SLM). Ils sont affectueusement surnommés les Ministraux. Ministral 3B et Ministral 8B doivent pouvoir s’exécuter sur des ordinateurs de bureau ou des appareils mobiles.

Déploiement Edge et flux de travail « agentiques »

Battre Meta et Google avec leurs armes de prédilection

Les Ministraux doivent faire leurs preuves

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM

IA : les Small Language Models vont s’imposer

IBM se dit bien parti pour rattraper OpenAI et Anthropic… avec un petit LLM

IA : les grands modèles consomment jusqu’à 61 000 fois plus d’énergie que les petits

Small 3 : Mistral AI a son équivalent de GPT-4o mini en local