metamorworks - stock.adobe.com

Données non structurées et IA : Collibra acquiert Deasy Labs

Avec le développement croissant de l’IA, le dernier achat de l’éditeur belgo-américain permet aux clients de mieux combiner l’ensemble des données pertinentes afin d’alimenter des applications avancées.

Collibra a acquis la semaine dernière Deasy Labs. Les conditions financières de l’accord n’ont pas été divulguées.

Fondée en 2023 par des développeurs du cabinet de conseil McKinsey & Co., Deasy Labs est une startup basée à New York qui fournit des outils de gestion des métadonnées basés sur l’intelligence artificielle. Ceux-là doivent aider à automatiser la gouvernance des données non structurées.

Plus spécifiquement, Deasy permet de créer visuellement des pipelines pour étiqueter, filtrer et enrichir des métadonnées. Un mécanisme permet de faire de la rétro-ingénierie sur les schémas de données et la taxonomie en place. Il est possible de lancer des boucles de test afin de valider la qualité des métadonnées. La startup promet que sa suite permet d’annoter un million de documents en moins d’un jour et qu’elle peut être déployée sur site ou dans le cloud (GCP). Pour automatiser les traitements, Deasy utiliserait une combinaison de LLM et de modèles de machine learning.

Collibra, spécialiste de la gestion des métadonnées basé à Bruxelles et à New York, permet déjà aux utilisateurs de gérer les données non structurées à partir de leurs métadonnées grâce à sa plateforme éponyme. Cependant, jusqu’à présent, le classement et le filtrage des fichiers de données non structurées se faisaient soit manuellement, soit via des plateformes tierces issues de partenaires de Collibra.

Une fois les fonctionnalités de Deasy intégrées à la plateforme Collibra, l’éditeur promet que ses utilisateurs pourront automatiser une grande partie du classement, du filtrage et de l’enrichissement des données non structurées. Ils pourront ainsi unifier la gestion des données structurées et non structurées afin d’alimenter les initiatives d’IA et d’analytique, vante-t-il.

Selon Sanjeev Mohan, fondateur et directeur du cabinet d’analyse SanjMo, l’acquisition de Deasy par Collibra apporte donc des capacités importantes.

« Jusqu’à présent, nous ne disposions pas des outils adéquats pour extraire facilement des informations à partir de [données non structurées], car il s’agissait d’un processus manuel, sujet aux erreurs et impossible à mettre à l’échelle », déclare-t-il. « Aujourd’hui, grâce à l’IA, nous avons les outils nécessaires pour analyser ce type de données à grande échelle. Collibra peut combiner ses compétences en matière de curation des métadonnées issues de données structurées et les appliquer à ces “données obscures”. »

Donald Farmer, fondateur et directeur de TreeHive Strategy, a également salué cette acquisition.

« Je trouve cette acquisition très intéressante, car l’accès aux données non structurées et la capacité à les cataloguer et à les gérer ont toujours été un problème », confirme-t-il. « Les clients de Collibra avec lesquels j’ai travaillé ne considéraient pas nécessairement cela comme une faiblesse, mais plutôt comme un domaine dans lequel ils souhaitaient investir davantage. Ils seront ravis de cette acquisition. »

Outre Collibra, des fournisseurs tels que Snowflake et Qlik accordent la priorité à l’accès aux données non structurées.

« Déverrouiller l’accès aux données non structurées »

De fait, la plupart des entreprises ont massivement investi dans l’analyse de données structurées, car les outils accessibles sur le marché avaient beaucoup de mal à exploiter les données non structurées. Or, selon les estimations des analystes, elles représentent la très grande majorité (80 à 90 %) des informations stockées par les entreprises. 

Mais l’IA générative et l’IA agentique, sans être miraculeuses, changent la donne. Enfin, il est possible d’automatiser une partie des traitements de mails et d’appels ainsi que d’extraire des données de PDF à grande échelle. Problème, la GenAI – très intéressante pour les entreprises – est aussi sujette aux hallucinations. Et les modèles ont encore bien du mal à exploiter des données spécifiques aux entreprises.

Kevin Petrie, analyste chez BARC U.S., souligne que les recherches menées par son entreprise montrent une forte adoption des données structurées pour les initiatives d’IA, mais que seulement un quart à un tiers des organisations utilisent également des données non structurées.

Or la combinaison de deux types de données est un moyen d’améliorer la qualité des réponses de l’IA. Il est donc essentiel d’obtenir une technologie capable de gérer ces aspects. Ainsi, l’analyste considère le rachat de Deasy par Collibra comme une « décision judicieuse ».

« Une initiative moderne en matière d’IA doit inclure plusieurs types de modèles et utiliser plusieurs types de données », a-t-il déclaré. « Il est donc crucial que les équipes chargées des données cataloguent ensemble tous leurs actifs et modèles de données. »

Selon Kevin Petrie, les avantages concurrentiels de l’IA apparaissent lorsque les entreprises peuvent appliquer des modèles d’IA à des ensembles de données propriétaires. Si ces ensembles de données contiennent des informations provenant d’objets non structurés, les entreprises peuvent en tirer un contexte plus riche que lorsque les ensembles de données contiennent uniquement des données structurées.

Trier des métadonnées pour les LLM… avec des LLM

« Cette acquisition permettra aux utilisateurs de Collibra d’organiser et de préparer des données non structurées pour l’entraînement et l’inférence de modèles d’IA », ajoute-t-il.

La technologie de Deasy Labs se connecte directement à des sources de données non structurées, détecte automatiquement les taxonomies pour classer les données contenues dans ces fichiers et enrichit ceux-ci avec des métadonnées structurées afin qu’ils puissent s’intégrer à des données structurées et alimenter les outils d’IA et d’analyse.

Plus précisément, les capacités existantes de Collibra, combinées à celles de Deasy, devraient permettre d’obtenir les fonctionnalités suivantes :

  • Une modélisation sémantique automatisée qui classe et filtre les données non structurées afin de leur donner une structure permettant leur recherche.
  • La découverte de données pertinentes grâce à l’IA, basée sur le balisage sémantique.
  • Le soutien à la performance durable des outils d’IA avec des volumes de données plus importants.

Bien que toutes ces fonctionnalités soient précieuses, la modélisation sémantique automatique est peut-être la fonctionnalité phare que l’acquisition de Deasy par Collibra apportera, selon Sanjeev Mohan.

Donald Farmer, quant à lui, a fait remarquer que malgré l’automatisation d’une grande partie de la gestion des métadonnées associées aux données non structurées, les outils de Deasy nécessitent également une supervision humaine pour garantir l’exactitude des classifications et des filtres générés par l’IA et les approuver.

Selon sa documentation, Deasy combine la présence d’un humain dans la boucle (pour valider les étapes), l’apport de « preuves » (en comparant les tags existants et ceux attribués par ses modèles d’IA), l’application de règles (pour garantir l’intégrité des labels) et la possibilité de choisir les LLM (pour opérer une partie des traitements). La société permet de personnaliser chacune des tâches de classification effectuées par un grand modèle de langage. À voir si Collibra conservera cette fonctionnalité.

Une intégration prévue dans les « prochains mois »

Selon Felix Van de Maele, PDG de Collibra, ce sont les commentaires des clients qui ont incité Collibra à réaliser cette acquisition.

Le dirigeant justifie le rachat par la nécessité d’embarquer rapidement ces capacités de traitement automatisées dans la plateforme sans partir de zéro.

« Le rachat de Deasy Labs nous permet de faire un bond en avant grâce à une technologie GenAI native éprouvée et à des talents confirmés », assure-t-il.

Au cours du second semestre 2025, l’ajout de capacités d’automatisation supplémentaires pour permettre aux clients de mieux gérer les données et l’IA sera une priorité pour Collibra, selon M. Van de Maele.

Pour sa part, Sanjeev Mohan suggère que Collibra utilise les capacités issues de son acquisition de Deasy afin de développer des fonctionnalités de gestion de données non structurées alimentées par l’IA agentique et adaptées aux besoins de secteurs spécifiques.

« Deasy Labs peut aider dans les cas d’usage de l’IA pour des secteurs tels que le traitement des documents bancaires ou les transcriptions d’appels », envisage l’analyste.

Dans les faits, la startup a orienté sa technologie dans le but d’améliorer la précision des mécanismes RAG. Et c’est comme ça que ses premiers clients l’ont principalement utilisée, notamment dans le domaine médical.

Pour approfondir sur MDM - Gouvernance - Qualité