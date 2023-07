105 millions d’euros levés en amorçage (seed). C’est la performance accomplie en juin par une startup de l’intelligence artificielle fondée par trois Français, Mistral AI alors qu’elle n’avait été créée qu’en avril. Cette première levée de fonds s’explique en fait par les CV de ses fondateurs.

Car l’entreprise ne dispose pas encore de produit. Et elle n’en proposera pas avant 2024. Pour les investisseurs (essentiellement européens), la participation de trois chercheurs – Timothée Lacroix, Guillaume Lample et Arthur Mensch – constituait néanmoins un argument suffisamment convaincant.

Des modèles plus petits, mais spécialisés et bien entraînés

La promesse de la jeune pousse, face à de grands modèles de langage généralistes, c’est donc des modèles pré-entraînés à spécialiser en fonction des spécificités de chaque entreprise, et sans dépendance technologique vis-à-vis du fournisseur. Une promesse qui n’est pas sans rappeler celle d’une autre pépite française de l’IA Générative, LightOn.

Mistral AI prévoit les premières mises en production pour certaines fonctions métiers à compter de 2024. L’éditeur annonce une « première release début 2024. » Et s’il indique rechercher des partenaires commerciaux pour le développement de preuves de faisabilité (PoC), il reste avare de détails sur sa roadmap précise.

Pour convaincre, le CEO Arthur Mensch le martèle : la spécialisation des modèles se fera sur les données des entreprises et il leur donnera la possibilité « de gérer l’ensemble de leur stack elles-mêmes. C’est un contre-positionnement par rapport à des acteurs comme OpenAI ou Anthropic qui refusent la mise à disposition entière des modèles. Cela les oblige à avoir des modèles très gros, car généralistes. À moyen terme, cela posera une question de coûts. »

Et tout comme LightOn, Mistral AI n’entend pas participer à la guerre des paramètres. Proposer des modèles plus petits signifie par conséquent une plus grande spécialisation et des coûts d’exploitation moindres. C’est en tout cas la promesse.

Le recours à des modèles plus petits (3 milliards de paramètres par exemple) devrait par ailleurs contribuer à réduire la facture associée à l’inférence, y compris en termes de bilan carbone, rappelle Arthur Mensch.

Autre argument en faveur du « small is beautifull », l’usage de modèles en mode on-premise et spécialisé impose des versions plus petites. « [Mais] nous savons que pour un grand nombre de cas d’usage, un modèle de 3 milliards de paramètres, très bien entraîné, suffit », argue le CEO de la jeune pousse française. À titre de comparaison, les grands modèles fermés tournent autour de 1 000 milliards de paramètres.