Cet article fait partie de notre guide: Les stratégies clés autour du Data Mesh

Transformation de données : DBT Labs aiguise sa couche sémantique

Les nouvelles capacités de modélisation sémantique incluent la prise en charge des jointures dynamiques ; tandis que l’amélioration DBT Mesh représente une expansion dans le monde du Data Mesh pour l’éditeur spécialisé dans la transformation de données.

L’éditeur a dévoilé ces nouvelles fonctionnalités le 17 octobre lors de Coalesce 2023, une conférence organisée à San Diego.

Basé à Philadelphie, DBT Labs – qui signifie « outil de construction de données » – a été fondé en 2016. L’entreprise a d’abord proposé un ensemble d’outils open source pour la préparation et l’orchestration des données. DBT Labs fournit toujours une version libre de sa plateforme, mais mise désormais sur une offre commerciale en direction des ETI et des grands groupes.

Au cours de l’année écoulée, DBT Labs a conclu de nombreux partenariats afin d’accroître sa visibilité sur le marché et de faciliter au maximum les intégrations avec les outils de gestion et d’analyse des données.

Parmi ceux-ci, l’on peut lister Alation, Starburst et ThoughtSpot. Tableau est un nouveau partenaire.

Une couche sémantique à un niveau inférieur

En outre, DBT Labs a acquis Transform en février afin d’améliorer les capacités de son outil Semantic Layer. La version actualisée de ce produit, qui est désormais disponible, reflète cet effort.

Les couches sémantiques sont des outils qui permettent aux organisations de créer des définitions communes pour les données et les métriques clés, quel que soit le service qui collecte et consomme les données.

Sans cette communion, différents départements, tels que les finances et le marketing, peuvent collecter les mêmes données pour des tâches différentes sans corréler les traitements. Ils créent donc plusieurs vues ou copies différentes d’une information identique.

Si une transformation concerne un dispositif à l’usage exclusif d’un département, cela ne pose pas de problème. En revanche, si cette transaction est nécessaire pour constituer le profil complet d’un client, il est vital que les données soient caractérisées uniformément dans tous les services.

Il en va de même pour les indicateurs clés de performance. S’il n’est pas nécessaire que la direction ait accès aux mêmes KPI que les entités commerciales, une définition commune de ces indicateurs est nécessaire, ne serait-ce que pour la cohésion de l’organisation.

Selon Stewart Bond, analyste chez IDC, les couches sémantiques ont d’abord été mises en avant par les éditeurs analytiques. Ces solutions se sont uniquement concentrées sur la définition des données et non sur celle des métriques. Elles ont été largement utilisées dans des environnements sur site, poursuit-il.

Par exemple, Looker et MicroStrategy font partie de ceux qui fournissent leur propre couche sémantique.

« Avec sa couche sémantique définie par les métriques, DBT Labs s’inscrit en rupture de solutions existantes proposées par les outils BI. »
Stewart Bond Analyste, IDC

« DBT Labs fait partie de ceux qui bouleversent l’ingénierie de données traditionnelles pour imposer la “Modern Data Stack” », assure l’analyste d’IDC « Avec sa couche sémantique définie par les métriques, DBT Labs s’inscrit en rupture de solutions existantes proposées par les outils BI ».

Mike Leone, analyste au sein de l’Enterprise Strategy Group de TechTarget, également propriétaire du MagIT, partage cet avis.

« Cela permet à DBT Labs de servir de base de confiance pour toutes les initiatives “data” », déclare-t-il. « Les organisations veulent de la cohérence dans leur prise de décision. En leur permettant de définir de manière centralisée leurs métriques commerciales et de les utiliser ensuite dans toutes les BU (business units ou entités commerciales, en français), celles-ci peuvent avoir la certitude que tout le monde travaille avec les mêmes informations ».

DBT Labs a dévoilé Semantic Layer pour la première fois fin 2022. Dès le début, l’outil a permis aux utilisateurs de caractériser des données et des métriques dans DBT Cloud, puis d’exécuter des requêtes à partir de plateformes BI, dont ThoughtSpot et maintenant Tableau.

Avec l’intégration des capacités de Transform, l’outil permet également :

  • La prise en charge des jointures dynamiques afin de combiner un nombre « illimité » de tables.
  • La génération automatisée de jointures, de filtres et d’agrégations en SQL.
  • La prise en charge d’indicateurs plus complexes
  • Une intégration avec Tableau pour que les utilisateurs puissent développer des mesures cohérentes.
  • Une connectivité améliorée avec Amazon Redshift, Databricks, Google BigQuery et Snowflake.

Selon Luis Maldonado, vice-président des produits de DBT Labs, compte tenu de ses liens continus avec la communauté open source, ce sont les utilisateurs de DBT qui ont donné l’impulsion nécessaire à l’amélioration de Semantic Layer.

En particulier, les jonctions entre tables depuis la couche sémantique étaient une fonctionnalité attendue.

« Dès le lancement, les réactions ont été nombreuses », assure Luis Maldonado. « Nos clients ont clairement indiqué que pour que les choses fonctionnent, nombre de leurs mesures allaient devoir être reliées entre les tables, et [la couche sémantique] devait prendre cela en charge. La grande vedette [de la mise à jour], ce sont ces jointures dynamiques ».

Ces retours d’expérience ont d’ailleurs influencé l’acquisition de Transform, poursuit-il. Le rachat aurait permis d’accélérer l’implémentation de ces fonctionnalités.

L’ère du Data Mesh

Explosion du volume de données ou non, les équipes IT sont souvent débordées par la myriade de tâches liées à la gestion des données. Historiquement, la mise en place de l’analytique en libre-service n’a pas permis de les éliminer, ce qui allonge leur mise à disposition auprès du métier.

Plutôt que de faire des données dans le domaine d’une seule équipe au sein d’une organisation, de nombreuses entreprises adoptent désormais une approche Data Mesh dans laquelle chaque domaine – ou département – est responsable de ses propres données.

Les responsables départementaux des données sont chargés de la supervision, tandis que des outils tels que les catalogues de données relient les différents départements pour permettre le partage des données et la collaboration entre les domaines.

Pour aider les organisations à se décentraliser, DBT Labs a dévoilé la préversion publique de DBT Mesh disponible dans DBT Cloud, un service managé avec lequel les développeurs peuvent créer et déployer des produits de données.

Indissociable de la création de ces produits, DBT Mesh inclut des fonctions de gouvernance telles que le contrôle de l’accès et des versions.

Selon Stewart Bond, il s’agit là d’une expansion pour DBT Labs. Historiquement, l’éditeur s’est concentré uniquement sur la création de pipelines de données. « DBT Mesh est un développement intéressant qui fait passer DBT du statut d’outil de construction de pipelines de données à celui d’aide à la conception de produits de données, qui peut également être une combinaison de plusieurs pipelines, modèles et produits de transformation de données », résume-t-il.

Selon l’analyste, DBT Labs a d’abord été déployé par des utilisateurs qui souhaitaient expérimenter une alternative open source aux plateformes existantes. En conséquence, leur travail ne respectait pas toujours les directives et les normes de l’entreprise qui devaient être intégrées dès la création d’un jeu de données.

Stewart Bond considère donc qu’il est important d’embarquer la gouvernance dans le projet DBT Mesh.

« À mesure que le nombre de projets DBT et de produits de données augmentera, les organisations informatiques et les responsables des données chercheront à assurer la gouvernance », déclare-t-il.

Capture d'écran DBT Explorer .
Le Data lineage intégré dans DBT Explorer.

Outre DBT Mesh, la mise à jour de DBT Cloud comprend les éléments suivants :

  • DBT Explorer, un outil qui permet aux usagers d’observer et de visualiser le cheminement des données, y compris entre les domaines dans une architecture Data Mesh.
  • Cloud CLI, une fonctionnalité qui permet aux développeurs d’écrire du code non seulement à partir de leur IDE, mais aussi à partir d’une interface de ligne de commande, afin qu’ils puissent travailler à partir de différents appareils et utiliser le logiciel IDE de leur choix.
  • Des connecteurs pour Microsoft Azure Synapse et Fabric qui permettent aux utilisateurs des produits d’Azure d’accéder aux capacités de transformation de données de DBT Labs.

Associées à DBT Mesh et Semantic Layer, ces fonctionnalités représentent une évolution significative pour DBT Labs, selon M. Bond.

« Avec ces nouvelles fonctionnalités, DBT Labs intègre ses produits dans une plateforme, ce qui l’aidera à… établir une empreinte plus large à travers les départements et des entreprises. Cette approche permettra d’obtenir plus facilement les faveurs de l’IT et du Chief Data Officer », commente-t-il.

Pour M. Maldonado, DBT Mesh est le point fort de la mise à jour de DBT Cloud.

Mike Leone, quant à lui, souligne l’importance des intégrations pour la croissance de DBT Labs au-delà de ses débuts open source.

« Je pense que l’accent mis sur les intégrations reste essentiel pour permettre à un plus grand nombre de clients de profiter de la valeur de DBT Labs », formule-t-il.

Data Mesh et observabilité, les impératifs de DBT Labs

DBT Mesh n’est qu’un début, selon M. Maldonado.

Lors de son passage chez AWS, où il a récemment occupé le poste de chef de produit pour Amazon Athena (il a rejoint DBT Labs en juillet), Juan Maldonado a constaté que l’adoption du Data Mesh augmentait à mesure que les opérations de données centralisées des entreprises cédaient sous le poids de la demande.

« Le Data Mesh est le seul moyen d’aller de l’avant sans que les technologies de l’information s’effondrent », vante-t-il.

Ce qui justifie le fait que cette approche occupe une place prépondérante dans la feuille de route de DBT Labs.

DBT Labs prévoit notamment de mieux permettre aux organisations de coordonner et d’orchestrer les flux de travail entre les projets et les domaines. D’autres capacités de gouvernance sont programmées.

L’éditeur entend également améliorer l’observabilité des données. En raison de son positionnement dans la pile technologique, cette supervision joue un rôle dans une grande partie du pipeline analytique. En utilisant les informations recueillies lorsque les données passent d’une étape à l’autre, DBT Labs veut aider davantage les organisations à comprendre la santé et la fraîcheur de leurs données.

Stewart Bond, lui, considère que DBT Labs devra faire ses preuves pour justifier le potentiel remplacement de plateformes de gestion et de gouvernance de données existantes.

« DBT Labs devra démontrer la valeur des fonctionnalités de la plateforme pour séduire les ingénieurs qui se sont d’abord tournés vers DBT en tant qu’alternative open source, en évitant les plateformes plus grandes, propriétaires et complexes », préconise-t-il.

Pour approfondir sur Middleware et intégration de données

Close