arthead - stock.adobe.com

Avec Lakeflow Connect, Databricks veut simplifier l’ingestion de données

L’éditeur spécialisé dans la gestion de données entend rationaliser l’ingestion de données dans sa plateforme. Il commence par des connecteurs préconfigurés pour Salesforce et Workday. D’autres sont attendus. Le revers de la médaille est déjà bien connu des clients.

Databricks a lancé mercredi Lakeflow Connect avec la disponibilité générale des connecteurs pour Salesforce et Workday.

Lakeflow Connect est un ensemble de connecteurs low-code/no-code entre la plateforme Databricks et les applications SaaS, les bases de données et d’autres sources de fichiers, dévoilé pour la première fois en juillet 2024. Avec Delta Live Tables (DLT) pour la transformation des données et Databricks Workflows pour l’orchestration des données, il constitue la suite d’ingénierie Lakeflow.

Lakeflow Connect est alimenté par des capacités de calcul serverless, ce qui permet aux utilisateurs d’exécuter des flux de travail sans avoir à provisionner des clusters. Databricks gère et met à l’échelle la puissance de calcul requise. Lakeflow Connect s’intègre aux capacités de gouvernance, d’observabilité et de sécurité de Databricks, y compris Unity Catalog.

Kevin Petrie, analyste chez BARC U.S., note qu’une étude de BARC montre que plus de 90 % des leaders de l’IA testent au moins l’utilisation de données structurées pour informer les applications, tandis que près des deux tiers utilisent des données en temps réel pour alimenter des applications.

Par conséquent, Lakeflow Connect est un ajout significatif, selon Kevin Petrie.

« Les applications Salesforce et Workday fournissent exactement ce type de données en tant qu’entrées pour le machine learning en temps réel et les cas d’usage GenAI », déclare-t-il. « Databricks a raison de simplifier l’accès aux données de cette manière. »

Comme les autres éditeurs, Databricks s’est dernièrement concentré sur l’infusion de l’IA dans sa solution et, dans un même temps, poursuit le développement de ses capacités de traitements structurés. Il a d’abord fait sa renommée avec ses fonctions de data engineering (l’éditeur a été fondé par les inventeurs d’Apache Spark) et de data science.

Soulager les ingénieurs de données

L’ingestion de données est essentielle, mais complexe.

Il s’agit essentiellement du processus d’obtention et d’importation des données dans des systèmes tels que les bases de données, les entrepôts de données, les lacs de données et les entrepôts de stockage de données (data lakehouses). Mais il est compliqué de construire et de maintenir des pipelines qui déplacent les données des systèmes où elles sont créées – comme Salesforce et Workday – vers des systèmes où elles sont stockées et préparées pour alimenter les outils analytiques.

Cela implique souvent l’usage de différents outils et frameworks, dont des ETL, des fonctions de Change Data Capture, des plateformes de streaming de type Apache Kafka, etc.

En conséquence, les ingénieurs passent beaucoup de temps à assembler et à maintenir des outils disparates, dont certains finissent par échouer lorsque le volume de données et le nombre de flux dépassent leur capacité. Le temps et l’accumulation de technologies nécessaires pèsent fortement sur les dépenses.

Databricks a entendu des clients parler des difficultés qu’ils rencontraient pour ingérer des données, et ce retour d’information a été à l’origine du développement de Lakeflow Connect, selon Michael Armbrust, ingénieur logiciel distingué chez Databricks.

En juin 2024, Ali Ghodsi, cofondateur et CEO de Databricks, constatait l’intérêt grandissant pour les solutions de gestion de pipelines de données.

Des ajouts « notables », selon les analystes

Avant Lakeflow Connect, l’éditeur proposait des connecteurs pour de nombreuses sources de données, mais ils devaient être configurés par les clients et maintenus au fur et à mesure que les API, les schémas et d’autres aspects des sources de données changeaient. En octobre 2023, Databricks a acquis Arcion pour 100 millions de dollars afin d’améliorer ses capacités d’ingestion de données. Lakeflow Connect représente l’intégration par Databricks d’Arcion à sa plateforme.

« Les clients ont besoin de ces données, mais avant cette annonce, ils étaient obligés d’utiliser des outils tiers qui, souvent à grande échelle, tombaient en panne », avance Michael Armbrust. « Ils devaient déployer leurs propres solutions personnalisées ».

En utilisant les deux premiers connecteurs de Lakeflow Connect, les ingénieurs peuvent créer des pipelines d’ingestion de données en quelques clics ou quelques lignes de code, afin que les données créées dans Salesforce et Workday puissent être rapidement et facilement extraites et transférées dans la plateforme Databricks.

À l’ingestion, les données passant par les connecteurs Workday et Salesforce sont directement référencées dans Unity Catalog, la couche de gouvernance intégrée à la « Data Intelligence Platform ».

Donald Farmer, fondateur et analyste principal de ThreeHive Strategy, le rappelle. Beaucoup d’autres éditeurs proposent des connecteurs vers des sources réputées (ERP, CRM, CDP, GED, etc.). Snowflake le premier. Et à l’analyste de citer la Connector Factory de Qlik, mais l’on pourrait également mentionner les 700 connecteurs de Fivetran.

Lakeflow Connect ne manque toutefois pas d’intérêt pour les clients de Databricks, estime l’analyste. Les fonctionnalités natives d’intégration avec Unity Catalog et de Change Data Capture sont « notables ».

« Les traitements serverless ne sont pas seulement intéressants en matière de simplification de la mise à l’échelle, mais aussi de temps de démarrage rapide. »
Donald FarmerFondateur et analyste principal, ThreeHive Strategy

« Il est très difficile de dire que Lakeflow Connect est unique, mais ces deux éléments issus de l’acquisition d’Arcion sont utiles », affirme Donald Farmer. De même, le fait que ces fonctions soient serverless serait également un avantage. « Les traitements serverless ne sont pas seulement intéressants en matière de simplification de la mise à l’échelle, mais aussi de temps de démarrage rapide, ce qui est important pour réduire la latence des pipelines les plus complexes », avance-t-il.

Au-delà du fait d’accélérer l’ingestion de données, Lakeflow Connect serait conçu pour simplifier le travail de transformation et d’orchestration de données aux ingénieurs. La combinaison de DLT, de Databricks Workflow, et de Lakeflow Connect unifierait les environnements de préparation de pipelines.

Simplicité contre verrouillage : l’offre de Databricks

C’est en tout cas ce que prétend Databricks. Ce n’est toutefois pas avec deux connecteurs que l’éditeur réussira à convaincre les entreprises.

Justement, des connecteurs pour Google Analytics, SQL Server, Oracle NetSuite, PostgreSQL, ServiceNow et SharePoint sont sur la feuille de route de l’éditeur. Michael Armbrust n’a pas souhaité annoncer de date de disponibilité, mais a laissé entendre que les clients pourraient en savoir plus au moment de la conférence annuelle Data+AI Summit.

En quelque sorte, les clients troquent une forme d’indépendance contre la facilité. Et c’est l’un des principaux reproches faits à l’éditeur. 

Cette plus grande facilité est pourtant réclamée par les clients selon l’ingénieur distingué qui affirme que Databricks se concentre sur « l’unification et la simplification du data engineering ».

« Si vous êtes un expert Apache Spark ou Scala, vous pouvez toujours développer des choses intéressantes avec Databricks », note Michael Armbrust. « Cette année, nous voulons pour quelqu’un qui ne connaît qu’un petit peu SQL, ou qui ne manipule que des interfaces utilisateurs, qu’il puisse construire des pipelines de qualité déployés en production ».

Alors qu’il proposait déjà des fonctionnalités de mise en production du machine learning, Databricks met désormais l’accent sur l’IA générative. Kevin Petrie de BARC US suggère donc à l’éditeur de favoriser la coopération de différents rôles pour bâtir des applications d’IA, dont les fameux agents IA.

De fait, entre la gestion de données, des modèles et le développement applicatif, il faut pouvoir mettre autour de la table des ingénieurs de données, des data scientists, des développeurs et, potentiellement, des architectes et des Ops.

« Je suis curieux de voir comme Databricks aide [les différents rôles] à coopérer tout au long du cycle de vie des agents IA », déclare l’analyste. « Cela demandera des intégrations plus poussées entre Lakeflow, Mosaic AI et MFLow pour la gestion des données, des applications et des modèles d’IA ».

Pour approfondir sur Middleware et intégration de données