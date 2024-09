Pour ceux n’ayant pas eu vent de l’événement, le fournisseur de grands modèles de langage (LLM) a ouvert une nouvelle page Hugging Face. Le nom du modèle donnait déjà un indice sur la nature du modèle et sa taille. Pixtral 12B est un modèle multimodal (plus précisément, un vision language model ou VLM) de 12 milliards de paramètres capable de traiter des images grâce à un « encodeur visuel » de type VIT (VIsion Transformer) d’environ 400 millions de paramètres.

De son côté, Redpoint précise que « le LLM peut identifier des notes manuscrites, des photos, des formules de mathématiques et des diagrammes complexes ». Il pourrait également propulser des assistants visuels et réaliser des tâches OCR.

Selon les exemples fournis sur Hugging Face, Pixtral peut décrire des images en détail, en extraire le texte et expliquer ce qu’il voit.

Pixtral 12B peut être déployé à l’aide de la librairie open source vLLM. Le VLM sera disponible sur Le Chat et la Plateforme « prochainement », confirme Sophia Yang, responsable des relations développeurs chez Mistral AI.

Les fichiers rendus disponibles par Mistral AI indiquent que Pixtral 12B est « open weight ». Les poids sont sous licence Apache 2.0. Le LLM dont le checkpoint pèse 25 Go s’appuie sur le même tokenizer que Mistral NeMo 12B, c’est-à-dire Tekken. Pas de surprise ici, Mistral NeMo est la base de ce modèle de vision.

Un retard à rattraper

Lors de son « sommet », Mistral AI a tout de même partager de premiers benchmarks laissant entendre que Pixtral 12B serait au niveau ou légèrement au-dessus de Claude 3 Haiku, Gemini 1.5 8B, Qwen2-VL-7B ou encore Phi-3 Vision dans les domaines cités ci-dessus. GPT-4o et Claude 3,5 Sonnet seraient devants, mais les écarts sur les différents benchmarks laissent entendre que Mistral AI, malgré son retard dans le domaine multimodal, serait en bonne voie.

Pour rappel, Anthropic, OpenAI et Google ont tous lancé leurs LLM multimodaux entre la fin de l’année 2023 et le début 2024. Reste à déterminer si les entreprises accapareront cette technologie ainsi que les gains qu’elles pourraient en tirer par rapport aux outils OCR et d’analyse d’images existants.