zsv3207 - stock.adobe.com

Avec son moteur Fusion, dbt Labs fait la chasse aux coûts

Les nouvelles fonctionnalités, dévoilées alors que l’éditeur annonce sa fusion avec Fivetran, comprennent un moteur mis à jour qui réduit les coûts de transformation des données et des agents IA spécifiques à certaines tâches.

Dbt Labs a dévoilé mardi une version mise à jour de son moteur Fusion, un remplaçant de dbt Core, dans son produit commercial.

En outre, le fournisseur a dévoilé dbt Agents, un ensemble de fonctionnalités basées sur l’IA, intégrée à la plateforme dbt Labs. Elles doivent aider les utilisateurs à effectuer des tâches telles que la découverte et la surveillance de la qualité des données.

La mise à jour Fusion et les agents dbt ont été dévoilés lors de Coalesce, la conférence annuelle des utilisateurs de dbt Labs à Las Vegas.

Fusion, lancé en mai, est actuellement en phase de préversion pour les charges de travail sur Amazon Redshift, Databricks, Google BigQuery et Snowflake.

Dbt Fusion est un moteur propriétaire dont le rôle est d’exécuter des charges de travail de transformation des données. Il est écrit en Rust et non plus en Python, contrairement à dbt Core.

Fusion permet désormais aux utilisateurs de créer des pipelines optimisés qui créent et gèrent des tables Apache Iceberg dans Databricks et Snowflake. Il exécute des charges de travail sur site et dans des clouds privés, pour un contrôle accru par rapport aux clouds publics. Par ailleurs, il intègre des définitions sémantiques et la traçabilité des données en vue d’améliorer la qualité des données.

Jusqu’à 30 % d’économie avec le moteur Fusion

Autre point notable, la mise à jour de dbt Fusion ajoute une orchestration sensible à l’état. Elle doit réduire les coûts de calcul inutiles en garantissant que les pipelines de données n’exécutent que les modèles ayant changé lors de l’entraînement et de la mise à jour des applications.

Plus précisément, dbt Fusion ne recrée pas les modèles de données des tables cibles (transformées) au sein de son DAG (graphe acyclique dirigé). Au lieu de ça, il ne traite pas ceux qui n’ont pas besoin d’être changés. Cela permettrait d’économiser 10 % des coûts, selon les tests effectués avec la cohorte de bêta-testeurs.

Le moteur permet aux équipes data d’affiner les pipelines de données, en définissant des exigences de fraîcheur des données que l’orchestration sensible à l’état respecte, tout en déterminant le chemin d’exécution des tâches optimal. La cohorte de testeurs aurait obtenu un gain annuel supplémentaire minimum de 15 %. L’amélioration des tests agrégés sensibles aux colonnes et de la CI permettrait encore de « gratter » 4 % des coûts, pour un total « potentiel » de 29 %.

« Le moteur Fusion est né du constat que nous avions atteint les limites de ce que nous pouvions faire avec le code source original de dbt Core », explique Tristan Handy, fondateur et CEO de dbt labs.

Les commentaires des clients ont également joué un rôle dans la décision initiale de dbt Labs de développer un nouveau moteur, poursuit-il. Le dirigeant assure que les utilisateurs recherchent toujours des performances plus rapides et des coûts plus bas. Mais la principale motivation pour créer dbt Fusion part du constat que l’architecture d’origine du fournisseur, construite en 2016, ne répondait plus aux besoins des charges de travail de 2025. L’écriture du moteur en Rust permettrait de parser 30 fois plus rapidement les données que dbt Core.

« Notre véritable motivation était de reconnaître que nous ne pouvions pas simplement nous contenter d’itérer afin d’aller vers l’avenir, surtout compte tenu de la rapidité avec laquelle les choses évoluent pour l’IA et les normes ouvertes comme Iceberg », affirme Tristan Handy.

Comme Fusion ajoute désormais des fonctionnalités qui aident les clients à contrôler leurs coûts, il présente un intérêt réel pour les clients, remarque Donald Farmer, fondateur et directeur de TreeHive Strategy.

« Cette annonce arrive donc à point nommé, d’autant plus que dbt a été critiqué par les utilisateurs pour la lenteur de l’exécution des projets de grande envergure. »
Donald FarmerFondateur et directeur, TreeHive Strategy

« Les coûts du cloud sont une priorité pour de nombreux DSI, en grande partie en raison de l’augmentation de l’échelle de l’IA, de l’analytique et des charges de travail liées aux données », déclare-t-il. « Cette annonce arrive donc à point nommé, d’autant plus que dbt a été critiqué par les utilisateurs pour la lenteur de l’exécution des projets de grande envergure ».

L’orchestration sensible à l’état, quant à elle, est un moyen logique pour dbt Labs de maîtriser les coûts et d’améliorer les performances, poursuit l’analyste.

« L’orchestration sensible à l’état est tout à fait logique », considère-t-il. « Auparavant, ce processus nécessitait beaucoup de travail manuel, donc les utilisateurs devraient être satisfaits si cela est bien fait ». Les gains semblent pour l’instant dépendre de la stratégie de rafraîchissement de données.

Quatre premiers agents IA pour les ingénieurs de données

Parallèlement, les quatre premiers agents IA de dbt font leur apparition. Ils sont ou seront accessibles via le serveur distant Model Context Protocol de dbt Labs. Le serveur MCP est en disponibilité générale et intègre des outils liés au moteur Fusion.

Les agents IA sont les suivants :

  • Developer Agent : un assistant bientôt disponible pour expliquer les modèles de données et les valider avant un merge.
  • Un futur agent d’observabilité pour surveiller la qualité des données, identifier les causes profondes des erreurs et des changements, et proposer des corrections dans les pipelines de données.
  • Un agent de découverte, en bêta permettant de trouver les jeux de données appropriés à partir d’une requête en langage naturel.  
  • Un agent analyste (en bêta également) pour répondre aux questions sur les modèles, les tâches et les métriques.

De nombreux fournisseurs ajoutent désormais des agents à leurs plateformes, DBT Labs n’est pas le premier, rappelle Donald Farmer. Et il n’était pas en avance l’année dernière. Cependant, comme la transformation des données implique plus de tâches routinières que certains autres processus de gestion des données, les agents sont les bienvenus.

 « Ce sont exactement les tâches que les agents devraient prendre en charge », avance Donald Farmer.

William McKnight, analyste et dirigeant du cabinet McKnight Consulting Group, souligne que les agents Developer et Observability seront peut-être les plus importants pour les utilisateurs.

« L’agent Developer se distinguera en automatisant des tâches telles que la création, la refonte et la validation de code, ce qui permet d’accélérer le processus tout en maintenant la qualité et la confiance », explique-t-il. « L’agent Observability est important, car il automatisera l’identification des problèmes et la proposition de solutions, ce qui réduit le travail de correction manuel et prend en charge l’IA régulée et une infrastructure de données fiable. »

Pour autant, l’ensemble de ces fonctionnalités ne sont pas disponibles ou en préversion. Quoi qu’en dise dbt, qui prétend que des milliers d’équipes sont en train d’adopter son nouveau moteur.

Une autre fusion attendue

Aussi, il faut rappeler la fusion en cours entre DBT Labs et Fivetran. Annoncée la veille de Coalesce, elle s’inscrit dans le cadre d’une consolidation continue dans le domaine de la gestion et de l’analyse des données.

« Lorsque l’accord sera conclu et que nos entreprises uniront leurs forces, nous pourrons devenir une solution [d’extraction, de transformation et de chargement] de bout en bout à grande échelle. »
Tristan HandyFondateur et CEO, dbt labs

Databricks et Snowflake ont racheté des spécialistes afin d’étendre leurs capacités. De même, Qlik et Fivetran se sont récemment développés en acquérant des éditeurs plus modestes pour se doter de fonctionnalités ETL/ELT modernes. Parallèlement, Informatica, spécialiste indépendant de longue date dans le domaine de la gestion des données, a conclu un accord en vue de son rachat par Salesforce.

Selon Tristan Handy, l’union avec Fivetran vise à combiner des capacités complémentaires afin de fournir aux clients une plateforme plus complète.

« Lorsque l’accord sera conclu et que nos entreprises uniront leurs forces, nous pourrons devenir une solution [d’extraction, de transformation et de chargement] de bout en bout à grande échelle », promet-il. « Nous avons déjà des milliers de clients communs… qui font confiance à Fivetran et DBT comme étant la meilleure combinaison possible. Notre objectif est de réunir tout cela dans une solution unifiée. »

Par ailleurs, dbt Labs prévoit d’affiner Fusion, à mesure que de plus en plus de développeurs adoptent le nouveau moteur et continuent d’étendre son écosystème grâce à des intégrations, ajoute Tristan Handy.

Concernant la nature open source de dbt Core, l’éditeur a promis de le maintenir le projet « indéfiniment ». Il a aussi annoncé MetricFlow. Cette librairie sous licence Apache 2.0 lancée avec Snowflake et Salesforce doit permettre de s’assurer que des métriques ou des indicateurs clés sont consistants entre les tableaux de bord, les notebooks des équipes data et les agents IA. 

« Dbt pourrait améliorer sa plateforme en améliorant la visualisation de la traçabilité des données et en prenant en charge davantage de sources de données », recommande pour sa part William McKnight. « En outre, il pourrait approfondir les capacités de ses agents IA, en les intégrant plus étroitement à Dbt Insights afin d’accélérer la génération d’informations et élargir l’utilisation du serveur dbt MCP. Cela garantirait un contexte fiable et contrôlé pour les systèmes IA externes. »

Pour approfondir sur Middleware et intégration de données