Getty Images/iStockphoto
IA générative: le Français LightOn lance un OCR pour exploiter les documents sensibles et complexes
La société française LightOn annonce l’arrivée de LightOnOCR-2, un nouveau modèle d’OCR capable d’analyse de très gros volumes de documents complexes. L’outil est intégré à sa plateforme de bout en bout, Paradigm.
LightOn a présenté, ce 19 janvier 2026, une nouvelle version de sa technologie de reconnaissance et de structuration de documents, LightOnOCR-2. Cette brique est intégrée à sa plateforme tout-en-un Paradigm.
Elle constitue la première étape d’un plan en 3 parties – baptisé « Bleu, Blanc, Rouge » – destiné à renforcer les capacités de cette solution française d’IA générative face aux offres concurrentes, principalement américaines (OpenAI, Microsoft, Google, etc.)
L’éditeur cible en priorité des corpus documentaires peu exploités, comme certains contrats, les dossiers techniques ou les archives réglementaires. Pour LightOn, ces contenus resteraient « largement inaccessibles à l’IA » en raison de leur complexité, de leur sensibilité.
Sa technologie OCR permet désormais de les analyser avec l’IA générative « là où ils se trouvent déjà », c’est-à-dire sans déplacer ces données.
Un modèle OCR de grande taille, déployable sur site
Techniquement, LightOnOCR-2 repose sur un modèle d’environ un milliard de paramètres. L’éditeur affirme qu’il se positionnerait en tête du benchmark OlmOCR, y compris face à des modèles « neuf fois plus grands ». Mais LightOn ne détaille pas les conditions exactes des tests ni les cas d’usage évalués.
Autre caractéristique, LightOnOCR-2 s’appuie sur une architecture « de bout en bout » contrairement aux chaînes OCR traditionnelles. Cette approche particulière vise à passer plus facilement à l’échelle lors des déploiements sur site (on-premise) à forte volumétrie.
Pour mémoire, LightOn propose des IA génératives packagées (LLM, RAG, supervision, hardware, etc.) à destination des entreprises souhaitant que leurs informations restent entre leurs murs pour des raisons de conformité ou de souveraineté.
Vers une IA documentaire intégrée et souveraine
Après cette première phase centrée sur l’OCR (« Bleu »), les étapes suivantes de la stratégie de LightOn porteront sur la recherche documentaire à grande échelle (« Blanc »), puis sur des modèles de compréhension (« Rouge »).
Une fois combinées, ces briques devraient permettre de déployer une IA générative capable d’exploiter l’ensemble des types de données internes.
« Avec LightOnOCR-2, nous franchissons une étape clé dans la mise en œuvre d’une IA documentaire souveraine. Nombre d’entreprises européennes disposent d’un patrimoine informationnel considérable, souvent inexploité faute de solution adaptée à des données complexes ou sensibles », resitue Igor Carron, président-directeur général de LightOn. « Notre ambition est de leur permettre d’exploiter pleinement cette richesse, sur leur infrastructure, sans compromis entre performance et souveraineté. »
Mistral AI aussi
Un autre spécialiste des LLM, Mistral AI, travaille lui aussi sur l’amélioration de l’OCR avec une philosophie similaire.
LightOn est coté sur Euronext Growth depuis 2024. Ses solutions s’adressent en particulier aux secteurs de la finance, de l’industrie, de la santé, de la défense et du secteur public. Parmi ses clients on trouve l’Afnic, l’ENS Paris-Saclay, le consortium militaire Europrop ou encore Ariane.
