alphaspirit - Fotolia
Databricks cimente les briques de son data lakehouse
Plus complet, ouvert et moins cher, voilà les arguments mis en avant par Databricks pour défendre son data lakehouse sur un marché de la gestion de données de plus en plus bruyant.
Outre sa volonté de faciliter les déploiements des algorithmes de machine learning, Databricks entend bien s’illustrer sur des terres traditionnellement dominées par les acteurs du data warehousing.
L’éditeur développe depuis 2017 la technologie Delta Lake, un data store ACID par-dessus un Data lake, un projet open source confié à la Fondation Linux en 2019.
Cependant, certaines fonctionnalités de Delta Lake sont encore propriétaires. Dès lors, les usagers qui testent la technologie peuvent rencontrer des problèmes de performance. Or, le modèle économique de Databricks repose sur la démocratisation de ses projets open source et l’apport d’un support technique et commercial pour les entreprises qui souhaiteraient les adopter en production.
En ce sens, Databricks a annoncé la version 2.0 de Delta Lake. Dans un futur proche, l’éditeur compte libérer l’ensemble des fonctionnalités qu’il conservait dans son offre commerciale. Il s’agit entre autres d’améliorer considérablement la compression des tables Delta et la performance des requêtes.
Des « entrepôts de données » plus performants
Databricks a également optimisé dès 2019 les capacités de traitements SQL d’Apache Spark, le framework de calcul distribué qu’il a créé et libéré.
En interne, il développe Photon, un moteur de requête vectorisé, écrit en C++. Ce moteur activable depuis les workspaces de Databricks sera prochainement en disponibilité générale. « Cela deviendra la méthode par défaut pour exécuter des requêtes SQL sur Databricks », estime Matei Zaharia, cofondateur et CTO de Databricks, auprès du MagIT.
Databricks SQL profitera également d’un CLI, en cours de développement. Cet utilitaire permet d’écrire des requêtes SQL depuis un ordinateur, sans passer par l’éditeur ou les notebooks de la plateforme. Il suffit de paramétrer un point de terminaison vers un environnement Databricks SQL.
Pour faciliter la connexion des applications opérationnelles à son lac de données, le fournisseur ajoute des connecteurs open source vers Go, Node.js et Python. Auparavant, Databricks ne supportait officiellement que les connecteurs JDBC/ODBC compatibles avec les outils BI, dont Power BI et Tableau.
Surtout, l’éditeur se met à la fédération de requêtes. Depuis Databricks SQL, il sera possible de requêter des sources externes dont PostgreSQL, MySQL ou encore AWS Redshift. « Vous pouvez enregistrer ces sources comme des tables et des schémas dans Databricks », commente Matei Zaharia. « Quand cela est pertinent, il est possible de pousser un sous-ensemble d’une requête SQL pour joindre les données en provenance de ces sources dans une table Delta », explique-t-il.
Selon le CTO, cette fonctionnalité était déjà appréciée des utilisateurs d’Apache Spark, mais la supporter dans Databricks SQL améliore la gouvernance et les permissions associées à ses données.
En parlant de gouvernance, l’une des annonces majeures concerne la disponibilité générale d’Unity Catalog « d’ici à quelques semaines ». Cette solution a été présentée l’année dernière. Il s’agit « d’une nouvelle couche de gestion pour les données, les tables, les modèles de machine learning, puis les tableaux de bord et les notebooks présents dans la plateforme », rappelle Matei Zaharia.
La fonctionnalité doit offrir un contrôle d’accès unifié à l’aide du standard ANSI SQL. Récemment, l’éditeur a développé un système de data lineage afin de tracer tous les calculs effectués en lien avec des notebooks, des jobs Spark, ou encore des tableaux de bord.
Cette traçabilité s’applique également à l’accessibilité des jeux de données et des tables par les utilisateurs via des logs d’audit. Unity Catalog dispose de connecteurs pour que les outils de gouvernance et les data catalogs du marché comme Immuta, Privacera, Collibra, Alation, ou encore Atlan puissent les interpréter.
Une marketplace ouverte à tous
En outre, Unity Catalog est nativement compatible avec Delta Sharing, un protocole open source de partage de données.
Le projet présenté l’année dernière par Databricks est déployé par certains clients dont Nasdaq et Shell. Depuis sa plateforme, l’éditeur observe d’ores et déjà la lecture de « quelques pétaoctets de données par jour » via ce protocole, selon le CTO.
« Lorsque nous discutons avec les vendeurs de données, ils se plaignent souvent du fait qu’il faut placer les data sets dans cinq ou six plateformes différentes. Cela est complexe à administrer », affirme Matei Zaharia. « Donc, nous pensons que l’ouverture permise par Delta Sharing va être intéressante ».
Sans surprise, Delta Sharing est désormais à la racine de la marketplace de Databricks. Cette place de marché ouverte, dévoilée lors de la conférence Data+AI Summit pourra accueillir des jeux de données, des tableaux de bord des modèles de machine learning ou encore des notebooks.
Et pour les entreprises qui souhaiteraient conserver la propriété de leurs données, mais monétiser les résultats de requêtes, Databricks a présenté Cleanroom. À terme, il s’agit de fournir un environnement sécurisé pour partager les données sans les copier, d’exécuter des workloads écrites en Scala, R, Python et en SQL et d’en tracer les usages via Unity Catalog.
Contrairement aux solutions proposées par Snowflake, Google Cloud ou AWS via RedShift, il ne sera pas nécessaire de déployer la plateforme de Databricks pour partager les données ou exécuter les modèles ML.
« Cela est très intéressant quand vous avez de gros jeux de données trop coûteux à copier et à ingérer depuis S3 ou Azure Blob Storage vers une autre plateforme », insiste Matei Zaharia.
Pour parfaire Delta Sharing – et par extension sa marketplace –, l’éditeur développe des moyens afin de partager des vues matérialisées de tables, mais aussi des flux de données.
Tous ces éléments intéressent un des clients français de Databricks : Upply. La startup spécialiste du suivi des flux de transport de fret envisage de rendre disponibles ses données sur la place de marché. « Les autres marketplace disponibles sur le marché sont plus adaptées aux partages de jeux de données statiques », remarque Florent Laval, CTO chez Upply. « Or, nous renseignons les prix pratiqués par les transporteurs à la requête via API. Demain, sur la marketplace de Databricks, nous pourrons proposer nos produits en libre-service ».
De fait, comme un bon nombre des fonctionnalités présentées lors de la conférence, la marketplace de Databricks ne fait qu’émerger. Pour l’instant, l’éditeur n’impose pas de modèle économique et laisse les clients administrer la tarification. En face, Snowflake, AWS ou bien Dawex ont déjà des places de marchés établis qui prennent en charge l’ensemble des fonctionnalités nécessaires à la monétisation des données.
La prolifération des lakehouses
Cette juxtaposition du modèle économique et des apports technologiques compte aussi pour Databricks. Avec les briques présentées lors de Data+AI Summit, l’entreprise californienne parfait sa vision du data lakehouse, fusion du data lake et du data warehouse.
Or la plupart des fournisseurs se sont emparés de cette notion un brin marketing et entendent offrir leur propre Lakehouse. Google, AWS, Microsoft ou encore Snowflake en font partie.
Ali GhodsiCofondateur et PDG, Databricks
« Je crois réellement que l’IA et le data lakehouse représentent l’avenir, mais quand tous ces fournisseurs prétendent avoir un data lakehouse, cela crée de la confusion sur le marché », affirme Ali Ghodsi.
Sauf que Databricks a lui-même créé ce terme en étant parfaitement conscient que ses concurrents tenteraient de l’assimiler. Il est donc venu le temps, pour l’éditeur, d’imiter une tradition ancrée chez Oracle.
Databricks vante son rapport performance-prix
Lors de la conférence, Databricks assure – benchmarks TPC-DS à l’appui – que son offre est plus performante et bien moins chère que celles des concurrents, notamment celles de Snowflake. « Si nous comparons le traitement de tables externes au format Parquet, nous sommes 30 fois moins chers que le plus cher de nos concurrents », affirme Ali Ghodsi, cofondateur et PDG de Databricks. De même, le CEO affirme que sa plateforme est cinq fois moins coûteuse pour charger et traiter des données relationnelles que celle d’un compétiteur dont le logo représente un flocon de neige.
En ce sens, le PDG a évoqué la préversion publique de Databricks SQL Serverless sur AWS. Pour rappel, l’environnement Databricks SQL permet d’instancier des ressources de calculs nommées SQL Warehouse (ex SQL endpoints), dédiées à des cas d’usage BI et aux charges de travail SQL.
« Traditionnellement, les clients nous donnent accès à un compte cloud comme Azure ou AWS pour lancer les machines et les workloads », explique Matei Zaharia. « Pour nos plus grands clients, c’est un avantage, car ils peuvent maîtriser la mise en réseau des VM tout en bénéficiant de leurs rabais obtenus auprès du fournisseur ».
Seulement pour les usages liés aux entrepôts de données, Databricks a observé que les utilisateurs veulent exécuter les requêtes SQL et éteindre les instances, ou profiter d’une montée à l’échelle accélérée.
Cette version serverless repose donc sur une flotte de VMs exécutant des conteneurs Kubernetes pouvant être attribués rapidement aux usagers. Le tout est entièrement administré par Databricks.
« Nous maintenons un grand pool de machines. Cela nous permet d’obtenir des remises importantes auprès des fournisseurs cloud et donc de réduire nos prix », affirme Matei Zaharia. « Aussi, au lieu de lancer les machines en quelques minutes [démarrer les plus grosses instances peut prendre une vingtaine de minutes, N.D.L.R], nous le faisons en quelques secondes », vante-t-il.
Ali GhodsiCofondateur et PDG, Databricks
Selon les porte-parole, ce mode serverless permettrait d’abaisser les coûts de fonctionnement de Databricks SQL d’environ 40 %.
« Cela compte », martèle Ali Ghodsi. « En ce moment, tout le monde ressent la pression économique et se demande comment optimiser ses dépenses ».
« Conserver des copies de données dans tous les sens coûte très cher », poursuit-il. « Dans les trois prochaines années, je pense que les entreprises seront plus conscientes des coûts qu’elles ne l’étaient par le passé ».
Cependant, le coût d’exécution n’est qu’une portion des dépenses qu’une DSI est amenée à effectuer dans une plateforme de données. Peu importe la solution choisie, les dirigeants comparent les fonctionnalités, le coût d’implémentation, du support, ou encore des formations des équipes. Quoi qu’en dise le PDG de Databricks, l’éditeur ne peut résoudre seul cette équation.