IA documentaire : les entreprises françaises ne sont toujours pas prêtes
Seulement 4 % des organisations françaises – publiques et privées – auraient des données prêtes pour y appliquer l’IA. Gérer ces documents et créer un Centre d’Excellence interne sont deux bonnes pratiques plébiscitées par un nouveau rapport.
Les études se suivent et le confirment : il existe un décalage flagrant entre l’ambition des organisations françaises autour de l’intelligence artificielle, et d’autre part la réalité opérationnelle. Et un des points bloquants parmi les plus bloquants reste, encore et toujours, la qualité des données.
C’est ce qui ressort d’une nouvelle étude sur l’IA documentaire, dirigée par le Laboratoire Hubert Curien, une unité de recherche du CNRS et de l’Université Jean Monnet – dans le cadre d’un consortium public-privé baptisé DaVinciDoc – et rendue publique lors du salon Documation.
Cette étude a interrogé quelques 700 décideurs IT. Avec une conclusion majeure : 4 % seulement des organisations disposeraient de données normalisées et gouvernées, prêtes pour l’IA.
Conséquence logique, la moitié d’entre elles n’auraient pas dépassé le stade des POC ou n’ont même lancé aucune initiative. Et exactement la même proportion se dit démunie face au Shadow AI de leurs employés ; un risque qui, souligne le rapport, est justement alimenté par la lenteur des processus internes.
À l’inverse, un cinquième des organisations aurait procédé à un déploiement généralisé de l’IA documentaire. Mais il y aurait un biais.
Le biais de Copilot
Quand on se penche dans le détail sur les outils déployés, les solutions américaines (ChatGPT dans 40 % des cas, mais aussi Gemini pour 23 %, et Claude dans un quart des entreprises privées) sont largement en tête devant les « challengers ». Mistral est présent ; surtout dans le secteur public (24 % des organisations sondées contre 11 % dans le privé). L’open source est également utilisé par 20 % des organisations (12 % en on prem, 8 % dans le cloud).
Surtout, les IA intégrées (Copilot 45%) dominent largement… Le biais est là.
« Copilot bénéficie d’un avantage considérable avec son intégration native dans Microsoft 365 », note l’étude. « L’ajout de Copilot est une décision d’achat, pas une décision d’architecture. […] Mais déclarer un outil et l’utiliser sont deux choses distinctes. Les analyses convergent pour signaler un écart significatif entre licences activées et usages effectifs de Copilot », insiste le rapport. Le chiffre de déploiement de l’IA documentaire en France doit donc certainement être revu à la baisse.
Le frein ne serait en tout cas pas technologique. « L’intégration réelle dans les processus métier se heurte à plusieurs obstacles : la pertinence des réponses sur les données internes (souvent mal structurées), l’acculturation des utilisateurs (qui ne savent pas quoi demander ni comment), et la difficulté à mesurer un retour sur investissement concret. »
Bref, le triptyque classique : données mal gérées, formations partielles, pas de cas à valeur ajoutée.
Fondations data et documentaires
Plus généralement, l’étude est sévère sur la manière dont les organisations publiques comme privées gèrent leurs savoirs. 75 % d’entre elles n’auraient pas sécurisé leurs bases (versionnage partiel, archivage ad hoc), 85 % ne maîtriseraient pas la qualité (doublons, versions contradictoires), et 56 % classeraient leurs documents manuellement, avec peu de métadonnées, et utiliseraient des moteurs ou des arborescences basiques.
« Le lien entre maturité documentaire et adoption IA est l’un des plus forts identifiés par ce baromètre. »
Étude sur l’IA documentaire, Laboratoire Hubert Curien (CNRS/Université Jean Monnet) - Consortium DaVinciDoc
« C’est un profil d’organisations en phase d’émergence. Elles ont conscience des enjeux, ont commencé à structurer leurs pratiques, mais n’ont pas encore franchi le seuil de la maturité opérationnelle », résume le rapport. « Et c’est sur ces fondations que l’IA documentaire est censée se déployer. Ce constat n’est pas un verdict. C’est un appel à l’action. Car le lien entre maturité documentaire et adoption IA est l’un des plus forts identifiés par ce baromètre. »
Pour l’étude il existe en effet une relation presque mécanique entre la préparation de ces données et le succès des projets d’IA. Les organisations avec des données « IA-ready » afficheraient un score d’adoption 2,4 fois supérieur.
Pourtant, à l’ère de l’IA, le RAG ne serait présent que dans 13 % des organisations françaises. Et encore, cela ne résoudrait pas tout. « Un système RAG qui interroge une base truffée de doublons produira des hallucinations documentées, avec la légitimité trompeuse d’une source interne », avertit le rapport.
L’importance des Centres d’Excellence
Le rapport milite en revanche pour les Centres d’Excellence. Disposer d’une équipe data dédiée et centralisée, ou tout du moins d’un modèle fédéré, doublerait le score d’adoption par rapport aux organisations qui n’en ont pas.
« Un système RAG qui interroge une base truffée de doublons produira des hallucinations documentées, avec la légitimité trompeuse d’une source interne. »
Étude sur l’IA documentaire, Laboratoire Hubert Curien (CNRS/Université Jean Monnet) - Consortium DaVinciDoc
Ces constats et ces enseignements concernent des organisations très variées. Le panel de DaVinciDoc est composé à 20 % de PME, à 23 % d’ETI, à 30 % du secteur public et assimilé et à 27 % de grands groupes, dans 18 secteurs d’activité, partout en France.
Les volumes documentaires sont tout aussi divers : 31 % gèrent moins de 250 000 documents par an et 23 % plus d’un million… mais 24 % ne sauraient pas de combien de documents ils disposent.
« Ce chiffre mérite d’être lu avec prudence. Il peut refléter une absence de mesure, mais aussi la difficulté à estimer un périmètre documentaire éclaté entre de multiples outils », nuance le rapport. « Il n’en reste pas moins un signal utile : pour dimensionner une architecture RAG ou un projet d’IA documentaire, une estimation même approximative du volume à traiter est un prérequis de cadrage. »
Le programme de recherche et développement derrière cette étude est soutenu par BPI France et la Région Auvergne-Rhône-Alpes. Le rapport a été co-réalisé avec deux acteurs du secteur de la GED et de l’IA (Efalia et Wikit).