zsv3207 - stock.adobe.com
Mistral AI muscle Le Chat pour gagner du terrain face à ChatGPT
La startup française veut faire d’une pierre deux coups en prouvant 1) que son application Le Chat est aussi utile que ChatGPT et Claude, et 2) que son VLM Pixtral Large tient la dragée haute à GPT-4o et Claude 3.5.
Hier, Mistral AI a annoncé la disponibilité de Pixtral Large, accessible depuis son interface utilisateur grand public, Le Chat, via sa Plateforme.
Pixtral Large : Mistral AI passe son procédé VLM à l’échelle
Après Pixtral 12B, Pixtral Large est un VLM, un Visual Language Model (ou modèle de langage-vision). Un VLM est plus communément appelé une IA multimodale. Multimodal est un terme pour identifier un grand modèle de langage capable de traiter du texte (le code est une forme de texte), des images, sûrement, et potentiellement des vidéos ou des fichiers audio.
Un VLM traite du texte et des images en entrée et répond uniquement avec du texte en sortie.
Entraîné sur la base de Mistral Large 2, Pixtral Large reprend la formule de Pixtral 12B, mais il affiche dix fois plus de paramètres : 124 milliards au total. Le décodeur textuel est doté de 123 milliards de paramètres et l’encodeur visuel dispose de 1 milliard de paramètres. Sa fenêtre de contexte de 128 000 tokens pourrait ingérer « 30 images haute résolution » au minimum.
Le modèle peut ainsi comprendre et expliquer des documents, des diagrammes, des images avec un niveau équivalent ou supérieur à GPT4-o, Claude 3,5 Sonnet, LLama 3.2 90B et Gemini 1.5 Pro, selon les benchmarks effectués par la startup. Pixtral Large dépasse de quelques points ses adversaires dans les tests MathVista, DocVQA, VQAv2 et MM MT-Bench. En clair, il comprend autant ou mieux les documents que ses concurrents et obtient de meilleures notes dans l’interprétation d’images relatives aux mathématiques.
Mistral Large bénéficie également d’une mise à jour (24.11) afin de mieux traiter les longs documents et les instructions longues, un nouveau « system prompt » ainsi qu’une meilleure prise en charge de l’appel de fonction.
Les deux LLM sont disponibles sous une licence commerciale (Mistral Commercial License) et une autre un tout petit peu plus permissive ciblant les chercheurs (Mistral Research License).
Outre leur disponibilité future sur les plateformes d’IA des fournisseurs cloud, Mistral Large 24.11 et Pixtral Large-latest sont accessibles depuis l’interface Le Chat.
Le Chat mue pour rivaliser avec ChatGPT
Pour rappel, Le Chat est l’application concurrente de ChatGPT davantage utilisé pour tester les différents modèles de Mistral AI. En bêta, elle se dote d’une intégration avec un moteur de recherche permettant de citer les sources du contenu généré par le LLM choisi, d’un outil de type canevas (similaire à la fonction Artifacts de Claude.ai et Canvas de ChatGPT) et de capacités de génération d’images propulsé par le modèle de diffusion « open weight » Black Forest Labs Flux Pro ainsi que des réponses plus rapides.
Ces améliorations sont gratuites… pour l’instant. « Chez Mistral AI, notre approche de l’IA est différente – nous ne cherchons pas à atteindre l’intelligence artificielle générale à tout prix », écrivent les représentants de la startup. « Notre mission est plutôt de placer l’IA d’avant-garde entre vos mains, afin que vous puissiez décider de ce que vous voulez faire avec les capacités avancées de l’IA », poursuivent-ils. « Cette approche nous a permis de gérer notre capital avec parcimonie, tout en proposant des capacités avancées à des prix abordables. Avec Le Chat, nous proposons un forfait gratuit généreux avec ces fonctionnalités bêta et nous travaillons sur des niveaux premium avec des garanties de service plus élevés ».
En clair, le fournisseur de LLM travaille sur un équivalent de ChatGPT Plus et ChatGPT Enterprise. Reste à voir s’il l’appellera Le Chat Plus et Le Chat Entreprise. En tout cas, Mistral AI compare aussi sa solution à Claude et Perplexity.
Agents et modération de contenus
Justement, les organisations ont déjà pu tester ces assistants, principalement à travers leur souscription Microsoft 365. Sans connexion aux données métiers, ils s’avèrent peu utiles. Les éditeurs estiment que l’IA agentique est la réponse à ce problème. En août dernier, Mistral AI avait présenté la version alpha d’Agents, un moyen de créer des flux automatisés pour certaines tâches répétitives. La Plateforme propose Agent Builder, une interface WISIWYG aidant à configurer ces agents. L’API associée devra permettre un usage programmatique, plus adapté aux besoins des développeurs. Pour l’instant, il n’est possible que de déployer les agents développés à travers l’interface.
Au-delà du Chat, Mistral AI a récemment annoncé de nouveaux outils en vue de contrôler les sorties de ses LLM. Il y a d’abord une API Batch, censée réduire les coûts d’inférence au moment de traiter des gros lots de documents.
« L’API Batch offre un moyen plus efficace de traiter les requêtes de gros volumes adressées aux modèles Mistral, à un coût inférieur de 50 % à celui d’un appel API synchrone », assure la startup. « Si vous créez des applications d’IA dans lesquelles le volume de données est prioritaire par rapport aux réponses synchrones, l’API batch peut être une solution idéale ».
Enfin, la startup française est sans doute l’une des dernières à proposer une API consacrée à la modération de contenus. Pour rappel, Meta a entraîné LLama Guard en 2023, un modèle dédié au filtrage de contenus nocifs. Google a proposé Gemma Guard cette année, tandis qu’OpenAI a lancé une interface de programmation similaire à Nemo Guardrails de Nvidia en 2022.