il-fede - Fotolia
Avec OCR 3, Mistral AI chasse sur les terres de Google Document AI et Azure AI Vision
La licorne française poursuit le développement de son offre consacrée à la numérisation et à l’analyse de documents. Le modèle de langage-vision Mistral OCR 3 surpasserait les services des fournisseurs cloud tout en affichant une tarification plus limpide.
Considérant que des informations cruciales et le savoir institutionnel des entreprises « demeurent enfermés dans des documents papiers et des PDF », Mistral AI poursuit ses travaux de modernisation de l’OCR.
La reconnaissance optique de caractères n’est pas une technologie nouvelle. Pour autant, les modèles de langage couplés à des encodeurs de vision peuvent améliorer sensiblement la précision des résultats obtenus.
C’est en tout cas le pari de la startup avec sa série de modèles Mistral OCR lancée en mars. Disponible via API, ils sont accessibles depuis peu à travers un « playground » intégré à son AI Studio. Elle fournit également des « livres de recettes » pour mettre en place les flux de travail.
Mistral OCR 3 surpasserait la concurrence
La troisième génération du modèle peut traiter des images et des documents (png, jpeg, avif, pdf, pptx, docx, etc.) en entrée et répondre par du texte structuré (markdown, HTML, JSON). Il gagnerait dans 74 % des cas face à Mistral OCR2 et afficherait des performances nettement supérieures aux services OCR du marché, dont Textract d’AWS, Azure AI Vision, Google Document AI et DeepSeek OCR. Remarquons toutefois que Mistral AI ne compare pas son VLM spécialisé avec les technologies d’acteurs établis, comme ABBYY.
Mistral OCR 3 obtiendrait des taux de précision compris entre 97,1 % et 98,8 % suivant les langues.
Pour ce faire, la startup affirme avoir entraîné son modèle pour reconnaître l’écriture manuscrite et les contenus « mixtes », la détection des cases, des étiquettes et d’autres éléments à partir de factures, de reçus, de formulaires, de documents gouvernementaux.
Le modèle serait « nettement plus résistant aux artefacts de compression, à la déformation, à la distorsion, aux faibles DPI et aux bruits de fond ».
Enfin, il permet de retranscrire des tables complexes à partir de balises HTML.
Mistral OCR 3 a été conçu pour traiter en lot des documents. Selon la startup, il s’agit d’alimenter des agents et des mécanismes RAG, de traiter automatiquement des factures ou des documents « opérationnels » (bon de livraison, bon de commande, etc.), d’orchestrer des pipelines de compréhension de documents de bout en bout, de numériser des archives, etc.
Le taux de précision pour la reconnaissance d’écriture manuscrite serait de 88,9 %, de 91,1 % avec des factures, de 95,5 % avec des formulaires, de 96,6 % avec des tables complexes et de 96,7 % pour les archives.
La startup ne précise pas comment elle a obtenu ces résultats et elle n’est pas tenue de le faire, indique-t-elle. « La loi européenne sur l’IA n’exige une documentation technique que pour les modèles d’IA à usage général présentant des risques systémiques », peut-on lire dans sa documentation légale. « Le modèle OCR 3 n’étant ni un modèle à usage général ni un modèle à usage général présentant des risques systémiques, ces exigences ne s’appliquent pas ».
Les clients peuvent toutefois réclamer des informations sur les poids du modèle à travers un formulaire de contact.
La numérisation des documents, toujours un sujet en 2025
« Nos premiers clients utilisent Mistral OCR 3 pour traiter des factures dans des champs structurés, numériser des archives d’entreprise, extraire du texte propre de rapports techniques et scientifiques, et améliorer la recherche en entreprise », indique Mistral AI.
TotalEnergies est l’un des clients qui ont précédemment communiqué sur l’usage de Mistral OCR.
La majorité des démonstrations diffusées par la startup française sont toutefois consacrées à des documents tapuscrits, dont certains produits à l’aide de machines à écrire. Il n’y a pas d’exemples plus complexes comme les bons de livraison, qui mêlent souvent des informations écrites à la machine et à la main. Lors du Dataiku Summit Paris en septembre, un porte-parole de Geodis témoignait du fait que l’entreprise de transport teste les modèles de langage-vision consacré à l’OCR. La filiale de la SNCF obtiendrait des taux de précision de l’ordre de 60 % sur ce type de documents.
Mistral OCR 3 est facturé 2 euros pour 1 000 pages, et 1 euro pour le même volume avec l’API Batch (en lot). L’annotation d’un millier de documents coûte 3 euros. La startup indique que les documents ne doivent pas faire plus de 50 Mo et pas plus de 1 000 pages. À noter qu’elle propose deux types d’annotation : des documents eux-mêmes, sous format Markdown, JSON et HTML et des graphiques ou images qu’ils pourraient contenir.
Difficile d’évaluer si la tarification est plus faible que la concurrence. Elle est toutefois plus simple à comprendre que les modèles d’Azure, de Google Cloud et d’AWS.
