Tijana - Fotolia
Mistral AI lève 385 millions d’euros et lance ses premiers produits
Mistral AI gagne rapidement de l’ampleur et annonce déjà une série A. Cette levée de fonds, ainsi que les annonces effectuées par la startup française, met en exergue ses forces et ses faiblesses.
Après avoir levé 105 millions d’euros en seed, et sept mois à peine après son lancement, Mistral AI a annoncé une collecte de 385 millions d’euros en série A. C’est la deuxième plus grosse levée de fonds pour une startup spécialisée dans l’IA générative en Europe, après les 500 millions d’euros récoltés par l’Allemande Aleph Alpha au début du mois de novembre.
La levée de fonds de Mistral AI est menée par Andreesen Horowitz (a16z) et Lightspeed Venture Partners. Parmi les 13 investisseurs, l’on compte BNP Paribas, CMA-CGM, General Catalyst, Conviction, New Wave, Motier Ventures, BPIfrance ou encore Salesforce Ventures. Au total, Mistral AI a déjà accumulé 490 millions d’euros et est valorisé 2 milliards d’euros. Une licorne.
« Avec cette levée de fonds record, l’entreprise Mistral démontre que la France a tous les atouts pour maîtriser l’intelligence artificielle », félicite Jean-Noël Barrot, ministre délégué chargé de la transition numérique et des télécommunications, sur X (Twitter).
« Mistral est au centre d’une communauté de développeurs, petite, mais passionnée, qui se développe autour de l’IA open source », notent les porte-parole d’Andreesen Horowitz, dans un communiqué. « Ces développeurs ne forment généralement pas de nouveaux modèles à partir de zéro, mais ils peuvent faire à peu près tout le reste : exécuter, tester, comparer, affiner, compresser, optimiser, attaquer (red teaming) et améliorer les meilleurs LLM open source. Les modèles affinés par la communauté dominent désormais régulièrement les classements des sources ouvertes (et battent même les modèles de sources fermées sur certaines tâches) ».
« Nous pensons qu’il s’agit de la voie la plus prometteuse pour parvenir à des systèmes d’IA robustes, largement adoptés et fiables, et que Mistral est l’équipe indépendante la plus avancée sur cette voie », poursuivent-ils.
Mixtral : Mistral AI prouve sa maîtrise de l’inférence
Dans la droite lignée de ce récit, plutôt que de communiquer sur cette opération financière, la société fondée par des chercheurs passés par Google et Meta a annoncé la disponibilité d’un nouveau modèle open source (toujours sous licence Apache 2.0). Mixtral est entraîné avec la technique Sparse Mixture of Experts (SMOE ou mélange clairsemé d’experts). Celle-ci permet de subdiviser un réseau de neurones en groupe de paramètres qui sont responsables du traitement des tokens.
« À chaque couche, pour chaque token, un réseau de routeurs choisit deux de ces groupes (les “experts”) pour traiter le jeton et combiner leurs résultats de manière additive », résume Mistral AI.
Ici, il existe huit groupes pour un total de 46,9 milliards de paramètres. Or, seulement 12,9 milliards de paramètres sont actionnés par token. En clair, la vitesse et le coût d’inférence d’un modèle, pourtant entraîné avec plus de 46 milliards de paramètres, sont équivalents à ceux d’un autre de 12 milliards de paramètres.
Résultat, Mixtral serait six fois plus rapide à l’inférence que LLama 2-70B, le modèle d’IA générative le plus capacitaire de Meta. Il serait même légèrement meilleur que ce LLM et GPT-3.5 dans quatre des sept benchmarks consacrés au rapport performance – coût d’inférence. De manière générale, ce LLM doté d’une fenêtre de contexte de 32 000 tokens touche du doigt les performances de GPT-3.5 tout en étant open source.
Mistral AI a fourni un effort pour incorporer dans son jeu de données de préentraînement des documents en français, en allemand, en espagnol, en italien et en anglais. Selon les tests effectués par l’équipe, Mixtral 8X7B surpasse Llama-1-33B et Llama-2-70B dans les quatre premières langues, mais il ne dit pas si c’est le cas pour GPT-3.5.
Une version de Mixtral a été entraînée pour suivre des instructions. La startup fournit la documentation pour le déployer à l’aide des projets Skypilot et vLLM. Cette variante est accompagnée d’un mécanisme de filtrage de contenu, un dispositif que les chercheurs ne s’étaient pas donné la peine de proposer au lancement de Mistral 7B.
Une plateforme disponible en préversion
Il faut dire que la startup profite de ces deux annonces pour annoncer la disponibilité en bêta de sa plateforme de services.
« Nous commençons simplement : la plateforme offre trois points de terminaison pour générer du texte en suivant des instructions textuelles, ainsi qu’un point de terminaison pour l’embedding. Chaque API présente un compromis performance/prix différent », renseigne l’équipe.
Mistral tiny n’est autre que la version 0.2 de Mistral 7B instruct. Sous la dénomination Mistral-small, se cache Mixtral. Quant à Mistral-medium, c’est un prototype déjà meilleur que Mixtral (8,6 contre 8,3 sur MT-Bench). Le modèle d’embedding, Mistral-embed prend en charge des vecteurs de 1 024 dimensions. Les API peuvent être requêtées en Python ou en JavaScript.
Outre cette préversion, la startup a effectué une collaboration avec Cloudflare pour proposer Mistral-7B-v.01-Instruct sur son service serverless Worker AI accessible en bêta. Google Cloud a également accueilli une variante de ce modèle depuis sa plateforme VertexAI, tandis qu’AWS l’a intégré à son service Amazon SageMaker JumpStart et Microsoft au catalogue d’Azure AI. De son côté, Mistral AI propose des moyens de les déployer sur OVHcloud et sur Scaleway.
Mixtral a été entraîné depuis les instances du cloud Scaleway d’Iliad, tandis que CoreWeave, un spécialiste américain de l’exécution de charge de travail GPU est également cité. Par ailleurs, la startup a reçu le soutien de Nvidia pour déployer la boîte à outils open source TensorRT-LLM et le serveur Triton pour optimiser l’exécution des modèles à l’inférence.
Les limites qui se posent à Mistral
Déjà techniquement solide, commercialement, Mistral AI n’en est qu’aux prémices de son aventure. OpenAI, Cohere et Anthropic ont pris de l’avance, soutenue par les fournisseurs de cloud américains, qui eux-mêmes développent des modèles.
Mistral AI défend sa capacité à fournir des modèles sous une licence « permissive » et ne dépend pas de ces fournisseurs américains. La société entraîne désormais ses modèles sur un cloud français. En revanche, comme la plupart des startups fer de lance du secteur, elle a besoin des GPU et des suites logicielles bas niveau de Nvidia. Le marché cherche des alternatives. Par exemple, Anthropic est aidé par AWS pour exploiter les instances équipées des puces Trainium et Inferentia. AMD cherche à convaincre les acteurs du secteur à adopter son accélérateur MI300.
L’autre limite pour Mistral AI, pourtant soutenu par le gouvernement français, c’est qu’elle bénéficie amplement de capitaux américains. Si une trop grande part de financement provient d’investisseurs outre-Atlantique, la société peut oublier son étiquette souveraine.
Par ailleurs, elle risque de se confronter aux manques de compétences disponibles sur le marché. Pour l’heure, les fonds serviront, entre autres, à accroître son organisation de 22 employés. Deux postes sont ouverts en ingénierie et en data science, tandis que cinq postes sont vacants à l’ingénierie produit. Signe de cette tension, Mistral AI recherche des candidats en France, au Royaume-Uni et aux États-Unis. En face, OpenAI a recruté plus de 700 employés, Cohere en a plus de 200, tandis qu’Anthropic revendique plus de 160 collaborateurs.
Reste enfin à savoir si les dispositions de l’AI Act lui seront favorables. En cela, le gouvernement français reste attentif, signale en filigrane Jean-Noël Barrot, en réaction à l’accord provisoire trouvé entre le Parlement et le Conseil de l’Union européenne le vendredi 8 décembre.