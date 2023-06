Comme promis, Opendatasoft s’attaque au sujet du lignage de données. Aujourd’hui, l’éditeur a présenté en disponibilité générale sa solution pour tracer les jeux de données et les visualisations issues de leurs combinaisons.

L’éditeur français évoque là des objets. Ces objets peuvent être des data sets, des processeurs de traitement ou des visualisations (cartographies, diagrammes, infographies). Ils sont associés à des types de relation : une fédération, une jointure, ou encore une transformation spécifique.

Avec la fonctionnalité de traçabilité, il est ainsi possible de consulter l’ensemble des étapes nécessaires (jointures, agrégations et fédérations effectuées) à la mise à disposition d’un jeu de données sur un portail privé ou public.

Ensuite, l’outil permet de savoir si un data set a été utilisé pour effectuer une cartographie, une page de visualisation HTML, un graphique ou s’il a fait l’objet d’une mise à disposition depuis un portail.

Directement intégré au sein du back office de la plateforme d’exposition et de diffusion de données, la fonctionnalité de data lineage utilise en partie les capacités de la base de données orientée graphe Neo4j.

Pour autant, visuellement, Opendatasoft a choisi de ne pas épouser la visualisation graphe. Il propose une interface simple, proche visuellement de la cartographie d’une ligne de métro (ou d’un flux ETL).

La précision de cette traçabilité dépend toutefois des producteurs, des data sets, des transformations et des visualisations. Les consommateurs peuvent décider de ne pas partager les statistiques d’utilisation référencées par Opendatasoft en optant pour les modes « incognito » ou « confidentiel ». Le producteur d'un jeu de données n’aura alors qu’une vision partielle, à savoir qu’il pourra connaître le nombre de domaines et d’objets hérités sans pouvoir connaître son véritable usage.

Selon Chloé Taleux, Customer Sucess Team Leader chez Opendatasoft, une entreprise peut aller plus loin en produisant (par exemple) des objets – des visualisations et des analyses clés en main – issues de la combinaison des jeux de données les plus populaires.

Plus tard, Opendatasoft introduira un moyen d’identifier clairement les champs et les critères qui provoquent la rupture d’une relation entre deux objets.

Depuis un tableau de bord, un ensemble de diagrammes affichent des statistiques avancées sur les jeux de données, les transformations et les visualisations créés. Un producteur peut ainsi prendre connaissance de la part de tables externes réutilisées dans la production d’un jeu de données et du volume de consommation dudit jeu de données par ses consommateurs.

Il est possible de visualiser les relations directes entre des objets Opendatasoft, les liens effectués entre différents data sets qui renseignent de leur popularité et le nombre de domaines Opendatasoft qui les consomment.

Une couverture fonctionnelle à combler

Aussi, ce data lineage est uniquement compatible avec les domaines et objets ODS. « Il fallait d’abord répondre à la demande de nos clients qui font de plus en plus d’Opendatasoft le point d’accès principal de leurs jeux de données partageables », explique le PDG. « Clairement, la réflexion est en cours pour poursuivre ce lignage en amont et en aval de notre plateforme ». De fait, il n’est pas rare que les clients d’ODS s’appuient sur un lakehouse ou une plateforme de data science avant de livrer les data sets. Aussi, certains n’utilisent pas les modules de visualisation du data hub et préfèrent s’appuyer sur des outils comme Tableau ou Power BI.

Plus tard, Opendatasoft entend ajouter une gestion des alertes pour notifier les producteurs de la rupture d’une relation ou de tout autre événement qui affecterait la performance de leurs portails.

Plus de 35 clients ont déjà pu tester la fonction de data lineage. « Ce sont des gros utilisateurs de notre plateforme. Cela concerne déjà plus de 90 000 jeux de données analysés et plus de 1 000 espaces de travail [autrefois nommés sous-domaines N.D.L.R] », indique Jean-Marc Lazard.

Des entreprises comme ICF Habitat, filiale du groupe SNCF, Bordeaux Métropole, ou encore UK Power Networks témoignent déjà pour approuver la démarche de l’éditeur.

Pour le moment, le module existant est inclus dans la plateforme sans coût supplémentaire. Selon le cofondateur d’Opendatasoft, les fonctionnalités avancées qui découleront d’un usage plus intensif de cette capacité de data lineage seront « probablement » rassemblées dans un module payant.