kirill_makarov - stock.adobe.com

Connecter IA et données : deux entreprises tech françaises apportent une solution

LightOn et LinkUp partagent une même ambition : rendre les grands modèles de langage véritablement opérationnels sur les données d’une entreprise. L’une maîtrise la recherche dans les documents internes, l’autre indexe le web pour les LLM. Ensemble, elles s’attaquent aux deux angles morts de l’IA générative en production.

C’est l’autre pépite française de haute technologie de l’intelligence artificielle. Moins connue que Mistral, LightOn ne fait pas de modèles (LLM), mais « tout ce qu’il y a autour et au-dessus », pour reprendre l’expression de son co-fondateur et PDG, Igor Carron. « Nous en avons fait. […] Mais nous voyons une “commoditisation” d’une partie des LLM », justifie-t-il. « Aujourd’hui, il y a plein de modèles open source qui sont de très très bonne qualité ».

Par « au-dessus », il faut comprendre : les outils pour connecter ces IA à différentes sources. Et contrairement à ce que l’on pourrait croire, la chose serait loin d’être triviale à grande échelle. De nombreuses organisations passeraient un « patchwork de solutions qui ne marchent pas bien », selon les mots d’Igor Carron.

Un RAG qui tient les promesses du RAG

À l’inverse, sa société, cotée en bourse depuis 2024, propose une « plateforme » technique, intégrée, clef en main, pour ingérer de grandes quantités de documents dans une base, qui soit à la fois sous la maîtrise totale d’une organisation et qui les rend « consommables » par les IA (sous forme de vecteurs).

« C’est un vrai RAG qui tient les vraies promesses du RAG », résume Igor Carron. « Nous faisons un travail de bibliothécaire. »

Paradigm – c’est le nom de la plateforme – se connecte à des dizaines de milliers de documents, plus ou moins hétérogènes (PDF, docs, images, etc.), plus ou moins disséminés dans des silos (SharePoint, ERP, CRM, messageries…), souvent peu ou mal indexés.

« Une grande partie de ce qu’on adresse, c’est l’inefficacité du moteur de recherche sur les documents que vous avez dans votre drive interne. », synthétise Igor Carron.

« Ce qu’on adresse, c’est l’inefficacité du moteur de recherche sur les documents que vous avez dans votre drive interne. »
Igor CarronCo-fondateur et PDG, LightOn

Pour tenir cette promesse, les ingénieurs et les chercheurs de LightOn ont construit plusieurs briques technologiques complémentaires les unes des autres. Une brique OCR, d’abord, qui ne se contente pas d’extraire le texte, mais comprend aussi les tableaux, graphiques et éléments visuels d’un document – ce que la plupart des solutions du marché ignoreraient encore. NextPlaid, ensuite : une base de données multivectorielle qui représente chaque document non pas par un unique vecteur, mais par une multitude de vecteurs (un par token clé).

La précision des réponses aux requêtes qui en découle serait sans commune mesure avec les techniques de découpage habituelles des documents, par « chunks ».

« Les chunks apportent beaucoup d’instabilité. Il faut décider où couper le texte », explique le cofondateur de LightOn. « Notre approche est beaucoup plus continue, beaucoup plus fine. », vante-t-il.

« Les chunks apportent beaucoup d’instabilité. Notre approche est beaucoup plus continue et plus fine. »
Igor CarronCo-fondateur et PDG, LightOn

Enfin, un moteur de « retrieval » permet d’interroger cette base à grande échelle aussi rapidement qu’une approche monovecteur.

Très à cheval sur sa forte dimension technologique, LightOn se targue d’être dans le top mondial sur plusieurs benchmarks académiques. « La recherche augmentée sur les données sensibles d’une entreprise, c’est tout un ensemble de techniques. Pas une seule », insiste en tout cas Igor Carron.

Mais il manquait encore à LightOn une brique pour aller chercher des informations sur Internet. Pas simple non plus, car il n’était pas question d’aller interroger l’API de Perplexity pour compléter une requête qui, par essence, doit rester 100 % privée et respecter la confidentialité de ses clients.

La réponse est venue d’une autre start-up, elle aussi peu connue du grand public et de haute technologie : LinkUp.

LinkUp : l’Internet dans un coffre-fort

LinkUp a été fondée par trois ingénieurs – Philippe Royer (ex-Lyft, diplômé de machine learning à Columbia), Denis Charolles (ex-Spotify, spécialiste de la recherche vectorielle) et Boris Toledano (ex-McKinsey et Carrefour, spécialiste de robotique et computer vision). Leur projet a été de reconstruire un index du web, non pas pour des humains, mais pour les LLM.

« Nous aidons les modèles à sortir du mode avion, on les connecte à Internet. » La formule est de Boris Toledano. Un LLM sans accès au web est comme un expert coupé du monde. Or les entreprises ont besoin de leurs agents IA pour surveiller des marchés, analyser des actualités sectorielles, ou interroger des bases juridiques mises à jour en permanence.

Sauf que connecter un agent à Internet, c’est envoyer ses requêtes – et donc ses intentions stratégiques – chez un tiers, souvent américain. Dans la banque ou le conseil, ce n’est pas une option possible.

« Nous aidons les modèles à sortir du mode avion, on les connecte à Internet. »
Boris ToledanoCo-fondateur, LinkUp

« Pour une banque d’affaires, faire des recherches massives sur l’industrie cosmétique pourrait donner un signal de marché : ça trahit qu’une opération est peut-être en cours », illustre Boris Toledano.

La réponse de LinkUp est une infrastructure qui garantit que les requêtes ne quittent pas son périmètre. Elles ne sont soumises à aucune rétention de données et ne servent à entraîner aucun modèle.

En pratique, les recherches sont traitées dans la RAM des serveurs qui l’héberge (aujourd’hui Azure) – elles ne sont jamais stockées par le fournisseur cloud. Et LinkUp l’assure, il peut basculer d’un hébergeur à l’autre (vers Scaleway ou OVH par exemple) sans friction, y compris vers l’infrastructure propre du client, via une fonctionnalité dite de « Bring Your Own Cloud ».

« L’actif de LinkUp, c’est une grande base de données vectorielle du web », simplifie Boris Toledano.

30 milliards de documents, triés pour les professionnels

L’index de LinkUp représente aujourd’hui 30 milliards de documents. L’entreprise a délibérément écarté les réseaux sociaux (Facebook, etc.) et les sources non pertinentes pour un usage professionnel.

En plus des mécaniques historiques de « discovery » du web (backlinks, fréquentation), elle a également développé un « Quality Scorer » – un LLM interne spécialisé dans l’évaluation de la pertinence des pages – pour s’assurer que ce qui entre dans l’index mérite d’y être.

« On recrée l’indexation du web avec le degré adapté de ranking et de profondeur à un usage de LLM. C’est très différent de Google, dont tout le design a été pensé pour la navigation humaine » compare Boris Toledano.

« On recrée l’indexation du web avec le degré adapté de ranking et de profondeur à un usage de LLM. »
Boris ToledanoCo-fondateur, LinkUp

Le LLM, lui, n’a pas besoin de liens à cliquer. Il formule des requêtes complexes, multi-étapes, et a besoin de recevoir directement les morceaux de contexte les plus pertinents. LinkUp lui fournit ces « chunks » vectoriels, extraits de son index, et classés par proximité sémantique avec la requête.

Pour certains clients aux besoins très spécifiques – un cabinet juridique qui veut indexer un site de jurisprudence quasi invisible pour Google, par exemple – LinkUp complète son index en le crawlant sur demande.

Il ne s’agit en revanche pas de scraping, insiste Boris Toledano. Il s’agit de crawler (extraire des métadonnées pour un moteur de recherche), non de scraper (aspirer du contenu pour entraîner un modèle). Les protocoles standards comme robots.txt sont donc bien respectés.

Un duo souverain

Avec ce partenariat, la boucle de la recherche par IA est bouclée. Ou presque.

Le diable se cache en effet toujours dans les détails. Ici, dans la performance et dans l’ergonomie.

Sur la première, LightOn travaille sur des outils afin d’optimiser le retrieval. « Pour trouver les documents avec plusieurs vecteurs par document, il faut faire des calculs extrêmement longs et compliqués si on les fait de façon naïve », déchiffre Igor Carron.

Sur l’ergonomie, Paradigm a intégré un « tool routing » – un mini-modèle de raisonnement qui décide, pour chaque requête, quel outil activer : base documentaire interne, web via LinkUp, ou un connecteur tiers (MCP, SharePoint, ERP, etc.).

Le tout accessible en langage naturel ou via API.

L’intégration de LinkUp n’entraîne pas de surcoût. Igor Carron la considère comme une composante indispensable de la plateforme : « Si on a un accès web qui est mauvais, la plateforme est mauvaise. Donc il n’y a pas de débat. »

Paradigm a séduit des collectivités régionales, des services de l’État, la Banque Postale Asset Management, et motorise en marque blanche une offre d’Orange Business – et « beaucoup de CAC 40 », glisse-t-on chez LightOn. LinkUp revendique de son côté des clients comme KPMG, la SNCF, La Poste, et plusieurs laboratoires d’IA dont Cohere.

Pour le DSI, l’enseignement de ce rapprochement est clair. Un RAG qui échoue ne le fait presque jamais à cause du modèle. Il échoue parce que les documents étaient mal indexés, parce que l’accès web était inexistant ou incontrôlé, et parce que personne n’avait pensé à l’orchestration. C’est précisément ce que LightOn et LinkUp ont construit – séparément d’abord, ensemble désormais.

Entretien réalisé avec Igor Carron, co-fondateur et PDG de LightOn, et Boris Toledano, co-fondateur de LinkUp.

Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire