Cet article fait partie de notre guide: Le catalogue de données, un pilier de la gouvernance

Tout pour vraiment bien comprendre les catalogues de données

Les catalogues de données servent de portails de données en libre-service pour les analystes et les utilisateurs métier. Cet article s’intéresse à la façon dont les données sont sélectionnées et conservées, aux fonctions, ainsi qu’aux fournisseurs du marché.

Les utilisateurs métiers s'appuient tous les jours sur des outils d'analyse de données en libre-service pour prendre des décisions. Ils doivent donc avoir accès à un grand nombre de données. Toutefois, pas question de les laisser extraire des données brutes d'un lac de données (data lake) ou de grands entrepôts de données : il convient en amont d’identifier et de trier les bonnes données pour s'assurer qu'elles sont exactes et appropriées. C'est là qu'intervient le catalogue de données.

Un catalogue de données est en fait un système de gestion des métadonnées suffisamment convivial pour l'utilisateur métier. Ces outils sont utilisés pour construire des portails dans lesquels les utilisateurs peuvent trouver les bonnes données qui ont été, au préalable, sélectionnées par des gestionnaires de données. Les données y sont classées selon des termes compris par les métiers et sont accompagnées d’un contexte pour être exploitées dans des applications analytiques.

La gestion des métadonnées est très recherchée par les entreprises, car elles ont du mal à inventorier toutes les données qu'elles collectent et à se conformer aux règles de confidentialité des données, comme celles du RGPD.

D’ailleurs, la mise en place d’un catalogue de données fait partie des recommandations de Gartner. Selon le cabinet d’analystes, ils permettent de créer des inventaires de données disponibles et de cartographier le cycle de l'information. Ces outils sont une composante essentielle des stratégies de gestion des données dans l'entreprise, affirme encore Gartner.

Comment fonctionne un catalogue de données

Sharon Graves, en charge de Tableau Server chez le spécialiste de l’hébergement GoDaddy, a implémenté le catalogue de données d'Alation en 2015. La société souhaitait à l’époque réduire le temps que les utilisateurs passent à rechercher les bonnes données. Ils voulaient également s'assurer que les données auxquelles ils avaient accès avaient été vérifiées par des gestionnaires de données.

« Le problème est que certains utilisateurs ne savent pas quelle source de données utiliser ou encore où trouver les données. Nous avions besoin d’orienter les utilisateurs vers un outil », explique-t-elle. « Nous voulions que nos analystes consacrent tout leur temps à l'analyse, et nous voulions aussi aider les utilisateurs à faire des graphiques et des tableaux croisés. »

Le catalogue de données extrait les métadonnées de nombreuses sources - Hadoop, Amazon Redshift, Apache Hive, Tableau Server, Teradata,… - et rassemble le tout dans un portail où les utilisateurs y recherchent les données les plus pertinentes. Il trie les données en fonction de facteurs définis - y compris si le gestionnaire des données a déjà validé celles-ci pour certaines applications. Il est également possible de construire des ensembles de données unifiés ou packagés pour les utilisateurs où les jointures ont déjà été effectuées, ajoute-t-elle.

Selon Gartner, la gestion des métadonnées est au cœur des catalogues de données. C’est ainsi vrai pour  les glossaires d'entreprise, le suivi des données (data lineage) et l'analyse d'impact, mais aussi pour  l'extraction d’entités, la génération de taxonomie, la découverte sémantique, les modèles de Machine Learning et les graphes de connaissances.

Dans l'ensemble, les catalogues de données permettent aux entreprises de tirer le meilleur parti des données qui se trouvent dans les data lakes – Il les rend faciles à trouver et à appliquer dans les analyses.

En plus d'Alation, d'autres fournisseurs proposent des catalogues de données, soit dans le cadre de leurs outils de gestion des métadonnées, soit en tant qu'offres autonomes. On peut notamment citer Attivio, Cambridge Semantics, Collibra, Informatica, Microsoft, Oracle, SAP, Waterline Data et le Français Zeenea.

Pour approfondir sur MDM - Gouvernance - Qualité

Close