
Olivier Le Moal - stock.adobe.co
Databricks aiguise ses outils de migration, d’ingestion et de transformation de données
Lors de sa conférence annuelle Data+AI Summit, Databricks a présenté ses fonctionnalités censées simplifier la migration et l’ingestion de données vers sa plateforme. Malgré les paillettes de l’IA, les entrepôts de données et l’analytique sont au centre de son activité.
Une course. Un combat. Un bras de fer. Les analogies ne manquent pas pour décrire la manière dont Databricks et Snowflake tentent de convaincre les entreprises d’unifier leur charge de travail sur l’une ou l’autre des plateformes.
Après que l’équipe bleu a fait ses annonces la semaine dernière, c’est au tour de la rouge de dégainer sa feuille de route.
Et il faut poser d’emblée un constat. L’IA générative et l’IA agentique demeurent la cerise sur le gâteau. Databricks et Snowflake s’affrontent pour manger le gâteau lui-même : le marché du data warehousing cloud.
Aussi trivial que cela puisse paraître, c’est le cœur de cible des deux acteurs. Snowflake a bâti sa réputation et base de client sur ce segment. Son adversaire vient du monde du lac et de la transformation de données à large échelle, un héritage du Big Data à la Hadoop.
Sur le papier, Databricks l’aurait rattrapé. « Nous avons environ 15 000 clients sur la plateforme aujourd’hui. Plus de 12 000 d’entre eux exécutent en production des charges de travail Databricks SQL », assure Joël Minnick, vice-président marketing chez Databricks, auprès du MagIT. La semaine dernière, Snowflake revendiquait un peu plus de 11 500 clients, mais comme Databricks n’est pas coté en bourse, il n’a pas les mêmes obligations de précision que son adversaire préféré.
L’entrepôt de données cloud, le nerf de la guerre
« L’adoption en production de notre entrepôt de données grimpe réellement en flèche », insiste Joël Minnick. « L’un des plus grands changements que nous observons, c’est que les clients ne se posent plus la question d’y mettre de nouvelles charges de travail, mais de migrer vers les anciennes ».
D’où le rachat, au mois de février, de BladeBridge, un spécialiste de l’automatisation de la migration de données. Une acquisition qui donne déjà lieu au lancement de Lakebridge.
Lakebridge est un outil gratuit qui analyse des environnements existants, qui convertit les scripts SQL, les flux de travail ETL, les procédures stockées en éléments compatibles avec Databricks SQL (DB SQL pour les intimes) ou Spark SQL. Puis une phase de validation permet de s’assurer que les données sont correctement migrées et qu’il n’y a pas de phénomènes de régression.
Compatible avec une dizaine d’entrepôts de données et de solutions ETL – dont Teradata, Oracle ADS, Netezza, SQL Server, IBM DataStage, Azure Synapse Analytics ou encore Snowflake –, Lakebridge s’appuie sur les outils « éprouvés » de BladeBridge.
Databricks y ajoutera son grain de sel. En sus d’y infuser de l’IA générative, l’éditeur prépare un pipeline d’apprentissage par renforcement basé sur Mosaic AI pour améliorer en continu la conversion du code et des objets. Un module dédié devra permettre « d’automatiser et d’optimiser les flux de travail de mouvement de données ». Et l’interface utilisateur de BladeBridge, brut de décoffrage, sera revue afin d’améliorer l’expérience des responsables de migration.
Il est encore question de mouvement de données avec la disponibilité générale de Lakeflow.
Lakeflow est présenté comme une solution d’ingénierie de données visant à unifier la gestion des pipelines ETL. Pour rappel, elle est composée de Lakeflow Connect, un outil d’ingestion de données batch ou streaming (utilisé par plus de 2000 clients, selon Databricks), de pipelines déclaratifs pour Apache Spark (une fonction que Databricks a décidé de donner à la communauté open source Spark) et de Lakeflow Jobs, un outil d’orchestration et de supervision des flux de données.
Lors de son sommet Data+AI, Databricks a annoncé la disponibilité limitée de connecteurs sources managés Lakeflow Connect pour Google Analytics, ServiceNow, Workday, SQL Server et SharePoint.
Des connecteurs pour Snowflake, Redshift, Google BigQuery, Oracle Netsuite, Dynamics 365, SFTP, MySQL et PostgreSQL sont également disponibles. L’éditeur veut aussi couvrir les besoins d’ingestions en quasi-temps réel avec l’API Zerobus. Celle-ci permet d’ingérer des flux de données dans son lakehouse à un débit de 100 Mb/s et avec une latence sous la barre des cinq secondes.
Outre les pipelines déclaratifs, Lakeflow a le droit à un IDE étoffé permettant de visualiser le code et les diagrammes graphes acycliques l’un à côté de l’autre, et d’obtenir du contexte pour débugger des flux, ainsi qu’à une intégration avec Git et une configuration assistée par l’IA.
Lakeflow Jobs, lui, peut orchestrer les pipelines déclaratifs, les notebooks Jupyter, les requêtes SQL, les transformations DBT et la publication vers les outils BI, dont Power BI et Databricks AI/BI. La planification des jobs a été affinée, tandis qu’il est possible d’exécuter des tâches en mode serverless.
Lakeflow Designer, « le Canva de l’ETL », selon Constellation Research
Ce n’est pas tout. Databricks lancera « prochainement » en préversion privée Lakeflow Designer. Contrairement au reste de la suite issue de l’acquisition d’Arcion, Designer ne cible pas les data engineers. « Designer ouvre Databricks à un nouveau profil d’utilisateur, des usagers peu techniques, mais qui comprennent parfaitement les données dont ils ont besoin », avance Joël Minnick. Databricks entend donc cibler les data analysts et les business analysts.
Lakeflow sera donc un outil no-code « visuel » pour créer des pipelines ETL en langage naturel ou à l’aide d’une fonction glisser-déposer.
« Il suffit d’écrire : “j’ai besoin de connecter ces données à ces données et je veux effectuer telles transformations” », illustre le vice-président marketing. « Si les usagers ont besoin de déplacer des éléments du pipeline, ils le peuvent ».
Sous le capot, c’est l’architecture Lakeflow qui s’assurera de gérer les pipelines ainsi créés.
« Tout sera intégré dans Unity Catalog : nous fournissons le “lineage”, l’auditabilité et la gouvernance de ces flux. En production, les pipelines fonctionneront de la même manière que ceux développés par les ingénieurs de données », promet Joël Minnick.
Par ailleurs, les data engineers auront accès, au besoin, au code généré automatiquement par Lakeflow, ajoute-t-il. Les modifications effectuées seront visuellement reflétées.
Une initiative saluée par les analystes.
« Il ne s’agit pas seulement d’une question d’échelle, il s’agit de débloquer les 90 % de questions qui n’arrivent jamais jusqu’à l’ingénierie », entrevoit Michael Ni, analyste chez Constellation Research. « Du suivi des campagnes à la planification territoriale, Lakeflow Designer permet aux équipes métier de définir et d’expédier des produits de données […] qui ne sont pas jetés à la poubelle. Lakeflow Designer est le Canva de l’ETL : instantané, visuel, assisté par l’IA ; mais sous le capot, c’est Spark SQL à l’échelle », compare-t-il.
« Cela recoupe avec la stratégie de Snowflake », constate pour sa part Kevin Petrie, analyste chez BARC US. Pour rappel, la semaine dernière, Snowflake a présenté SnowConvertAI, une évolution de son propre outil d’automatisation de la migration de données, un agent IA capable de créer des pipelines de données de machine learning et, surtout, Openflow, une suite d’ingestion de données basée sur Apache NiFi. Une réponse directe à Lakeflow que l’entreprise basée à Bozeman dans le Montana (comme la famille Dutton dans Yellowstone, ça ne s’invente pas) compte bien simplifier.