LightOn combine textes et images dans son Visual RAG

LightOn intègre Visual RAG à sa plateforme Paradigm. Cette fonctionnalité traite à la fois les textes et les éléments visuels (images, diagrammes) à l’aide d’un LLM. Une des premières solutions bout en bout du genre.

Pour rappel, un système RAG (Retrieval Augmented Generation) s’appuie sur une base de données vectorielle. De manière simplifiée, les documents sont découpés, puis convertis en vecteurs appelés embeddings et mis en correspondance avec les vecteurs qui représentent la question d’un utilisateur. L’extrait le plus pertinent est poussé vers un grand modèle de langage. Lui produit une réponse en langage naturel à la question de l’usager.

« C’est plus compliqué qu’on ne le pense », déclare Igor Carron, PDG et cofondateur de LightOn.

Entre les différents formats, la qualité des documents présents dans différentes versions dans les systèmes des entreprises, les pièces mouvantes du système, les entreprises se sont rendu compte qu’elles ne pouvaient pas obtenir un outil RAG avec « deux lignes de code ». « L’on s’est aperçu qu’un calcul de similarité ne suffit pas, et qu’il faut hybrider des méthodes de recherche classiques et modernes », note Igor Carron.

« Beaucoup d’éléments visuels guident la compréhension d’un document. Quand il s’agit de tables, de diagrammes, de graphes, de photos, ce sont là des informations qui sont parfois [...] absentes de la partie textuelle d’un document ».
Igor CarronPDG et cofondateur, LightOn

De plus, cette extraction de données depuis des documents concerne généralement des textes.

« La richesse des documents en entreprise n’est pas simplement une histoire de texte », constate Igor Carron. « Beaucoup d’éléments visuels guident la compréhension d’un document. Quand il s’agit de tables, de diagrammes, de graphes, de photos, ce sont là des informations qui sont parfois totalement absentes de la partie textuelle d’un document ».

Visual RAG : une solution clé en main

D’où la naissance de Visual RAG, la première solution complète en son genre, selon LightON.

Il existait déjà des méthodes pour rechercher des images en s’appuyant, entre autres, sur leurs métadonnées et leur analyse par un système de computer vision. Plusieurs projets de recherche ont vu le jour pour vectoriser des contenus visuels et simplifier leur recherche à l’aide de modèles de langage-vision (Visual Language Model ou VLM). Les VLM sont des grands modèles de langage de la famille de l’IA multimodale.

L’un des premiers projets en la matière se nomme ColPali. C’est un système imaginé par les chercheurs d’Illuin Technology. Ils décrivent et développent un moyen d’extraire des informations visuelles, à la fois la structure des documents et les images qu’ils contiennent.

« Ces techniques sont arrivées avec ColPali, à partir du mois de juillet 2024. D’autres équipes de chercheurs s’y sont penchées et nous avons bâti nos propres briques sur la base de ces travaux », relate Igor Carron. « Il faut retenir que ces technologies émergent l’été dernier et qu’elles sont dès à présent dans notre plateforme ».

En novembre 2024, LightOn a présenté monoQwen Vision, un VLM-outil pour reclasser (« reranker ») les documents visuels sans OCR (Optical Character Recognition), un composant absent du projet ColPali.

Avec l’introduction de Visual RAG, la société côté à l’EuroNext Growth dit avoir trouver un moyen de combiner les embeddings textuels et visuels pour enrichir les résultats de son système RAG. Des embeddings multimodaux, donc.

Des éditeurs de base de données comme Ziliz ou Pinecone, ainsi que les fournisseurs cloud, dont Google Cloud et Microsoft Azure proposent de prendre en charge les embeddings multimodaux. Toutefois, ils se concentrent généralement sur la recherche d’images ou ne fournissent pas de solutions clé en main.

Dans le communiqué de presse accompagnant l’annonce, LightOn illustre l’intégration de cette technologie. L’interface de Paradigm inclut un outil de recherche visuelle, combiné avec le LLM propriétaire Alfred 4. Ici, l’usager charge le document comprenant des visuels et l’accompagne d’une question. D’autres applications dont ChatGPT propose ce type de fonctionnalités, mais l’éditeur français assure qu’il est possible de « traiter des millions de documents hétérogènes ».

Se concentrer sur les usages et « sortir de la hype autour des modèles »

LightOn ne souhaite pas ouvrir le capot. « L’intégration de ces technologies est compliquée », considère Igor Carron. « Quand nous parlons d’embeddings visuels et d’embedding textuels et du fait qu’ils sont en train de se “morpher” en un seul embedding, ce n’est pas donné à tout le monde ».

Au lieu d’invoquer la protection de sa propriété intellectuelle, le PDG de LightOn justifie cette décision par la nécessité de « sortir de la hype autour des modèles » et des techniques de l’IA générative. « Nous souhaitons nous concentrer sur l’usage quotidien », martèle Igor Carron. Il espère que les entreprises ne tombent pas dans les écueils de conception de systèmes RAG existants avec les embeddings multimodaux.  

Dans Paradigm, le cas d’usage générique de Visual RAG, c’est « l’enrichissement des informations provenant des documents des entreprises ».

Des collectivités locales au génie nucléaire, une large palette de cas d’usage

Puisqu’il faut se concentrer sur les usages, le PDG de LightOn évoque une meilleure compréhension des rapports financiers, des documentations techniques ou encore des documents manuscrits (lettres, notes, etc.). Une capacité qui serait aussi intéressante pour des industriels et leur laboratoire de R&D que pour les collectivités locales.

« La réindustrialisation de la France dépend en partie de l’utilisation des données historiques et récentes », assure Igor Carron. « Pouvoir avoir des conversations avec ces documents-là est beaucoup plus facile avec cet aspect de Visual RAG ». Et d’illustrer son propos avec un test sur un rapport public relatif à une centrale nucléaire américaine datant des années 1970.

« Si certains systèmes optimisés restent plus performants, les VLM permettent d’explorer d’autres cas d’usage où l’OCR est moins efficace. »
Igor CarronPDG et cofondateur, LightOn

« Notre système est capable de répondre correctement aux questions d’un ingénieur en sourçant des diagrammes au sein du document », affirme le docteur en ingénierie nucléaire.

De manière générale, l’utilisation d’un modèle de langage-vision permettrait de traiter des documents non pris en charge par les systèmes OCR. « Si certains systèmes optimisés restent plus performants, les VLM permettent d’explorer d’autres cas d’usage où l’OCR est moins efficace », assure Igor Carron.

La fonctionnalité Visual RAG est déjà accessible à travers la plateforme Paradigm. Celle-ci peut être déployée sur site ou dans le cloud. En attendant que ses clients se l’approprient, LightOn envisage d’ores et déjà d’inclure des embeddings vidéo. Un défi de plus pour son équipe R&D.

Pour approfondir sur IA appliquée, GenAI, IA infusée