« Nous ne prévoyons pas de bâtir notre propre moteur analytique » (Tristan Handy, dbt Labs)
De passage à Paris à l’occasion du Coalesce On the Road, Tristan Handy, cofondateur et CEO de dbt Labs revient sur l’adoption d’un nouveau moteur de transformation de données, la fusion en cours avec Fivetran et les choix conservateurs de l’éditeur en matière d’open source.
En même temps qu’il rejoint Fivetran, dbt Labs, spécialiste de la transformation de données, change de moteur. Celui-ci, nommé Fusion, est écrit en Rust. Outre la plus grande efficience et la rigueur offerte par ce langage, l’éditeur propose une nouvelle méthodologie d’optimisation des jobs de transformation à l’aide de son système « conscient » des états.
Fusion est un compilateur qui peut lire n’importe quel dialecte SQL et le comprendre en le couplant aux DAG (graphes acycliques) des flux de travail dbt. « Avec cela, nous pouvons créer une couche de cache pour l’ingénierie de données », affirme Tristan Handy, CEO et cofondateur de dbt Labs.
Fusion, un moteur plus économe, mais aussi plus fermé
Si le travail est bien fait, l’éditeur promet que les clients peuvent économiser 29 % sur les coûts liés à l’exécution des jobs. C’est pourtant un nouvel apprentissage que semble imposer dbt Labs.
« La configuration n’est pas si difficile », affirme Tristan Handy auprès du MagIT. « Vous avez surtout besoin d’indiquer quand les données doivent être rafraîchies. Vous pouvez le faire à l’échelle de la table si elle est critique, ce qui réclame deux lignes de configuration ».
Le dirigeant assure que les économies affichées sur les « slides » pendant l’événement parisien sont « conservatrices ». « Les exemples que nous avons vus “dans la nature” sont beaucoup plus encourageants », assure-t-il.
Lors de l’événement français, les équipes de dbt évoquaient des gains en interne de 64 %. Cela représenterait 400 000 à 500 000 dollars d’économie des coûts de transformation de l’éditeur.
Pour autant, Fusion présente plusieurs inconvénients. D’abord, il impose d’utiliser l’orchestrateur de dbt. Or, de nombreuses équipes d’ingénieries de données s’appuient sur Apache Airflow et d’autres outils pour gérer leurs jobs de transformation dbt. Autre point, dbt Fusion est un moteur sous licence propriétaire permissive (Elastic), contrairement à Core, son précédent moteur de transformation écrit en Python, qui est open source.
Dbt et Fivetran ne prévoient pas de confier dbt Core à une fondation open source
« Nous n’avons pas le projet d’ouvrir Fusion plus qu’il ne l’est déjà », indique Tristan Handy. « Je préfère toujours l’ouverture, mais je pense que nous avons fait les bons choix pour Fusion. Et je pense que cela restera comme cela pendant plusieurs années ».
« Toutes les entreprises “open core” doivent peser les pours et les contres de l’open source en matière de compétition », ajoute-t-il. « Il y a l’entreprise qui développe une technologie, les clients et les compétiteurs. La licence Elastic permet aux clients de faire à peu près ce qu’ils veulent et ce sont les compétiteurs qui subissent les restrictions ».
Tristan Handy précise que ces concurrents peuvent toujours s’appuyer sur dbt Core. Pour autant, dbt Labs garde la maîtrise du projet.
Malgré sa « fusion » avec Fivetran, l’éditeur promet de maintenir le moteur open source et d’y concentrer une équipe d’ingénieurs responsable de le maintenir. En revanche, il n’est pas encore question de le confier à une fondation. Normalement, cela offrirait une plus grande neutralité dans sa gestion.
« Je serais très ouvert à l’idée que nous le donnions à une fondation », affirme Tristan Handy, auprès du MagIT. « Mais le problème, c’est quand vous donnez une technologie, vous devez aussi donner la marque. Nous n’allons pas faire ça ».
Pour comprendre ce point, il faut se rappeler les conflits entre l’Eclipse Foundation et Oracle autour de Jakarta EE (ex-Java EE). Ou encore du schisme entre Presto et Trino, un même projet né chez Facebook/Meta.
D’autre part, en 2018 et 2021, MongoDB et Elastic reprochaient aux hyperscalers d’utiliser leurs technologies – dont les ajouts propriétaires – et leurs marques tout en essayant de les remplacer. D’où la naissance de la licence propriétaire permissive Elastic.
« Nous essayons de maintenir dbt Core sans objectif commercial, dans un esprit communautaire », indique Tristan Handy. Ces choix interrogent, malgré tout, la communauté.
Se « réinventer » à l’ère d’Apache Iceberg
Dans un même temps, dbt et Fivetran préparent leur rapprochement technique pour offrir une plateforme consacrée au transfert et à la transformation de données. « Beaucoup de choses se passent en matière de gestion de données et d’IA. Par exemple, Apache Iceberg est en train de s’imposer comme un standard ouvert », illustre Tristan Handy. « Fivetran et dbt sont nés dans une ère où le sujet principal était la migration vers le cloud. Ce n’est plus le centre de l’histoire ».
Apache Iceberg est un format de tables open source. Elles peuvent ainsi être plus facilement déplacées entre les entrepôts de données/lakehouse. Surtout, il est possible d’utiliser plusieurs moteurs analytiques pour lire et écrire dans ces tables. C’est une technologie très populaire auprès des grands groupes. Il n’y a pas encore de standard de gouvernance, mais les éditeurs sont en bonnes voies en la matière, selon le CEO de dbt.
« Nous ressentons tous les deux [Fivetran et dbt] la pression de nous réinventer pour cette nouvelle ère. Nous avons pensé que nous y parviendrions mieux ensemble que séparément », continue le dirigeant. « Ce que nous créons ensemble, c'est cette solution intégrée que les clients nous demandent depuis toujours. Et si nous n'avions pas uni nos forces pour le faire, aucun de nous n'était encore la solution complète ».
En revanche, le dirigeant l’a affirmé pendant la version française de la conférence :
« Nous ne prévoyons pas de bâtir notre propre moteur analytique ».
« Avec Fusion, au lieu de désigner le moteur analytique à tout faire, nous voulons pouvoir tous les utiliser, pour leurs qualités spécifiques. Je pense que dans un futur proche certaines charges de travail pourraient s’exécuter sur DuckDB, d’autres sur Snowflake, Databricks, Spark ou Presto ».
Que le meilleur (moteur de transformation) gagne
En clair, dbt et Fivetran ne veulent pas concurrencer les « Big Five ». Dans le glossaire de Tristan Handy, cette expression désigne AWS, Microsoft Azure, GCP, Databricks, Snowflake.
« Databricks, Snowflake et les trois hyperscalers sont nos plus proches partenaires. Nous consommons tous les deux plus de données sur ces plateformes que n'importe quelle autre entreprise », vante-t-il.
Pour autant, ces partenaires développent des services d’ingestion et de transformation de données unifiés. C’est notamment le cas de Snowflake (OpenFlow) Databricks (Lakeflow).
Dbt l’a vécu par le passé quand Google a acquis DataForm. Un rachat qui n’a finalement pas perturbé la relation commerciale avec le géant du cloud.
« Dans ce domaine, vos partenaires sont toujours un peu vos concurrents dans des contextes différents », affirme Tristan Handy auprès du MagIT. « Je pense que cela crée un peu de friction. Les vendeurs de ces entreprises doivent d'abord se demander s'ils doivent utiliser le produit fourni avec la plateforme ou s'ils doivent en recommander un autre. Mais je pense qu'à long terme, c'est la meilleure solution qui l'emporte. Tout le monde veut que le client réussisse ».
