NicoElNino - stock.adobe.com

Opendatasoft se dote d’un data lineage « centré sur l’usage des données »

Si certains clients d’Opendatasoft maîtrisent la conception et le partage de jeux de données en interne ou à l’externe, ils peinent encore à en mesurer la consommation. L’éditeur français avance une première réponse à ce problème.

Comme promis, Opendatasoft s’attaque au sujet du lignage de données. Aujourd’hui, l’éditeur a présenté en disponibilité générale sa solution pour tracer les jeux de données et les visualisations issues de leurs combinaisons.

L’éditeur français évoque là des objets. Ces objets peuvent être des data sets, des processeurs de traitement ou des visualisations (cartographies, diagrammes, infographies). Ils sont associés à des types de relation : une fédération, une jointure, ou encore une transformation spécifique.

Avec la fonctionnalité de traçabilité, il est ainsi possible de consulter l’ensemble des étapes nécessaires (jointures, agrégations et fédérations effectuées) à la mise à disposition d’un jeu de données sur un portail privé ou public. 

Ensuite, l’outil permet de savoir si un data set a été utilisé pour effectuer une cartographie, une page de visualisation HTML, un graphique ou s’il a fait l’objet d’une mise à disposition depuis un portail.

Directement intégré au sein du back office de la plateforme d’exposition et de diffusion de données, la fonctionnalité de data lineage utilise en partie les capacités de la base de données orientée graphe Neo4j.

Pour autant, visuellement, Opendatasoft a choisi de ne pas épouser la visualisation graphe. Il propose une interface simple, proche visuellement de la cartographie d’une ligne de métro (ou d’un flux ETL).

Opendatasoft croise gouvernance des données et mesure de la popularité

Pour cartographier « le parcours des données d’un point d’origine à un point de destination », l’éditeur propose deux vues, suivant si l’on souhaite consulter le lignage lié aux jeux de données ou les objets diffusés depuis un portail.

L'interface de la fonction de data lineage d'Opendatasoft
Une interface simple d'accès pour les producteurs de données.

Il est possible de visualiser les relations directes entre des objets Opendatasoft, les liens effectués entre différents data sets qui renseignent de leur popularité et le nombre de domaines Opendatasoft qui les consomment.

Depuis un tableau de bord, un ensemble de diagrammes affichent des statistiques avancées sur les jeux de données, les transformations et les visualisations créés. Un producteur peut ainsi prendre connaissance de la part de tables externes réutilisées dans la production d’un jeu de données et du volume de consommation dudit jeu de données par ses consommateurs.

Le tout doit permettre de déterminer la popularité des data sets mis dans les mains des métiers ou auprès du public.

« Cela permet de cartographier les data sets selon leurs usages, là où dans les solutions de catalogage les fonctionnalités de lignage sont centrées sur le système d’information », assure Jean-Marc Lazard, cofondateur et président d’Opendatasoft.

 « Cela répond à la problématique d’un certain nombre d’entreprises qui sont largement engagées dans une démarche de partage de leurs données, en interne ou vers l’externe ».

Selon le dirigeant, ces entreprises n’avaient pas de solutions pour analyser la réutilisation des données et l’impact potentiellement généré. « Il s’agit également de démontrer la valeur des projets de partage de données auprès de décideurs métiers. Visualiser, c’est démontrer que les usages existent ».

De surcroît, l’outil identifie les relations invalides. Elles sont des indicateurs de la modification d’un identifiant technique dans le schéma de données, de la suppression d’un data set, ou d’une API hors d’usage.

Plus tard, Opendatasoft introduira un moyen d’identifier clairement les champs et les critères qui provoquent la rupture d’une relation entre deux objets.

« Cela doit permettre de prendre des décisions judicieuses pour le maintien en condition d’un data hub », résume le dirigeant.  « Le lignage devient un outil de gestion de la maintenance et de la gouvernance des flux de données ».

Un autre indicateur doit faciliter l’identification des jeux de données qui n’ont aucune relation, en clair ceux laissés à l’abandon.

Le tout permettrait aux clients d’Opendatasoft d’améliorer la pertinence des données partagées. « Il s’agit finalement d’assurer la mise en qualité des données de bout en bout, de la collecte de données jusqu’à leur publication sous forme de jeux de données », poursuit Jean-Marc Lazard.

Selon Chloé Taleux, Customer Sucess Team Leader chez Opendatasoft, une entreprise peut aller plus loin en produisant (par exemple) des objets – des visualisations et des analyses clés en main – issus de la combinaison des jeux de données les plus populaires.

La précision de cette traçabilité dépend toutefois des producteurs, des data sets, des transformations et des visualisations. Les consommateurs peuvent décider de ne pas partager les statistiques d’utilisation référencées par Opendatasoft en optant pour les modes « incognito » ou « confidentiel ». Le producteur d'un jeu de données n’aura alors qu’une vision partielle, à savoir qu’il pourra connaître le nombre de domaines et d’objets hérités sans pouvoir connaître son véritable usage.

Une couverture fonctionnelle à combler

Aussi, ce data lineage est uniquement compatible avec les domaines et objets ODS. « Il fallait d’abord répondre à la demande de nos clients qui font de plus en plus d’Opendatasoft le point d’accès principal de leurs jeux de données partageables », explique le PDG. « Clairement, la réflexion est en cours pour poursuivre ce lignage en amont et en aval de notre plateforme ». De fait, il n’est pas rare que les clients d’ODS s’appuient sur un lakehouse ou une plateforme de data science avant de livrer les data sets. Aussi, certains n’utilisent pas les modules de visualisation du data hub et préfèrent s’appuyer sur des outils comme Tableau ou Power BI.

Plus tard, Opendatasoft entend ajouter une gestion des alertes pour notifier les producteurs de la rupture d’une relation ou de tout autre événement qui affecterait la performance de leurs portails.

Plus de 35 clients ont déjà pu tester la fonction de data lineage. « Ce sont de gros utilisateurs de notre plateforme. Cela concerne déjà plus de 90 000 jeux de données analysés et plus de 1 000 espaces de travail [autrefois nommés sous-domaines N.D.L.R] », indique Jean-Marc Lazard.

Des entreprises comme ICF Habitat, filiale du groupe SNCF, Bordeaux Métropole, ou encore UK Power Networks témoignent déjà pour approuver la démarche de l’éditeur.

Pour le moment, le module existant est inclus dans la plateforme sans coût supplémentaire. Selon le cofondateur d’Opendatasoft, les fonctionnalités avancées qui découleront d’un usage plus intensif de cette capacité de data lineage seront « probablement » rassemblées dans un module payant.

Pour approfondir sur MDM - Gouvernance - Qualité

Close