Mistral AI tente de faire bouger les lignes de l’OCR
Avec Mistral OCR, la startup française s’immisce sur un terrain maîtrisé par des acteurs cloud et des éditeurs historiques. Il a toutefois quelques arguments pour convaincre les entreprises, notamment les plus sensibles à la confidentialité des données.
La semaine dernière, Mistral AI a lancé Mistral OCR, une API et un modèle de reconnaissance optique de caractères (OCR). Ces outils d’extraction de contenus structurés et de textes dans des PDF, ou des images sont également intégrés dans Le Chat, l’application concurrente à ChatGPT.
Mistral OCR est bien un modèle de computer vision. Le service doit conserver les formats des documents d’origine, gérer des mises en plage complexe, extraire les données textuelles et des tables avec une grande précision. Et ce dans une dizaine de langues, dont le français et l’anglais.
Hybrider OCR et VLM
Mistral AI assure que son API permet d’analyser des papiers de recherches et de la documentation technique, de traiter des documents légaux et des contrats ou encore de préparer des bases documentaires pour des architectures RAG visuelles. Des laboratoires de recherche, des services d’archivage, des services clients et d’autres entreprises l’auraient déjà testée.
L’API et les recettes fournies par la startup française mettent en lumière le fait que les fonctions d’OCR peuvent être combinées, au besoin, avec le modèle de langage vision Pixtral 12B (ou d’autres) et des LLM. Il s’agit alors d’accomplir des tâches d’extraction et de compréhension d’images et de textes.
« Dans des documents textuels complexes contenant des tables, un outil comme Mistral OCR peut être pertinent. Quand il faut extraire des logos, des schémas d’architecture, des plannings, etc., une IA multimodale en complément de l’OCR est nécessaire », explique Florian Arthur, directeur data science, responsable des pratiques NLP et LLM chez Quantmetry, une filiale de Capgemini Invent.
Ce faisant, Mistral AI entre en concurrence avec Google Document AI, Azure Document Intelligence. In fine, selon les benchmarks internes de la startup française, Mistral OCR serait dans l’ensemble plus performant que ces services, mais aussi que les modèles Gemini 1.5 (Flash, Pro), Gemini 2.0, et GPT-4o pour extraire du texte.
La startup joue également sur le tarif de son Mistral OCR. L’API mistral-ocr-latest est facturé 1 dollar les 1 000 pages, et 1 dollar pour 2 000 pages en batch. Une tarification agressive par rapport à celle de Microsoft. Les prix d’Azure Document Intelligence dépendent grandement du type de document à parser ou de la taille des lots (de 0,47 à 30 dollars pour 1 000 pages, suivant si les lots dépassent plusieurs millions de documents).
Une alternative aux solutions OCR sur site
Et Mistral AI de préciser que son modèle OCR est suffisamment petit pour traiter 2 000 pages à la minute depuis un seul nœud. En revanche, les documents ne doivent pas dépasser 50 Mo et 1 000 pages.
« Dans les benchmarks, Mistral AI se concentre sur les différences avec les services d’Azure ou de GCP, mais il faut savoir que la plupart des entreprises utilisent Tesseract et des outils open source qui ne sont pas du tout performants », signale Florian Arthur.
De surcroît, Mistral OCR et les modèles adjacents comme Pixtral peuvent être déployés sur site. « Je pense que c’est un gros différenciant en faveur de Mistral AI qui peut – comme elle le fait avec Mistral Large – déployer ses modèles OCR et ses VLM chez nos clients », souligne Florian Arthur. Précisons que Capgemini est partenaire de Mistral AI.
Pour le responsable des pratiques NLP et LLM, c’est un atout pour l’Administration et les armées au moment de traiter des documents sensibles. Pour rappel, des modèles de Mistral AI ont été déployés sur des infrastructures gérées par la DIRISI (Direction interarmées des réseaux d’infrastructure et des systèmes d’information). La startup a également signé avec un partenariat avec l’Amiad, le pôle de recherche spécialisé en IA de défense rattaché à la Direction générale de l’armement.
Un atout également reconnu par David Nicholson, analyste chez Futurum Group auprès de SearchEnterpriseAI, une publication sœur du MagIT. L’analyste avertit toutefois que cet avantage peut être facilement gommé par des concurrents.
Une stratégie de différenciation
Pour des usages plus simples, Mistral OCR semble également pertinent, selon Florian Arthur. « Il existe déjà des solutions de dématérialisation et de traitement de factures assez performantes, mais elles sont moins accessibles aux entreprises de 50 personnes », constate-t-il. « Si, une telle société a un développeur, elle peut simplement déployer ce type de solution sans devoir se procurer un service aux licences potentiellement coûteuses ».
De son côté, Capgemini Invent compte étendre les tests afin de voir la pertinence de la solution pour ses clients.
« L’OCR fait partie des besoins identifiés pour automatiser des processus dans le cadre du développement de l’IA agentique. »
Florian ArthurDirecteur data science, chez Quantmetry, filiale de Capgemini Invent
Pour Arun Chandrasekaran, analyste chez Gartner, « c’est vraiment difficile de vendre des modèles à usage général, il faut cibler des problèmes spécifiques des entreprises ».
L’analyste évoque donc une stratégie de monétisation de ses fonctions de multimodalité.
Il y a un autre point à ne pas oublier, selon Florian Arthur de Capgemini Invent. « L’OCR fait partie des besoins identifiés pour automatiser des processus dans le cadre du développement de l’IA agentique », souligne le directeur data science.
David Nicholson, lui, prévient que l’absence d’une interface plus simple qu’une API et des templates de programmation freine la monétisation d’un tel service OCR. Reste à voir si Mistral AI ajoutera une UI à travers sa Plateforme, comme Azure Document Intelligence.
Pour approfondir sur IA appliquée, GenAI, IA infusée