Databricks met la main sur Tabular pour mieux influencer l’avenir d’Iceberg
Databricks se prépare à acquérir Tabular, la startup derrière le format de tables Apache Iceberg. Un signe que l’éditeur ne peut pas soutenir un projet open source sans le contrôler, commente James Malone, directeur de la gestion produit chez Snowflake.
Le spécialiste de la gestion de données a annoncé le 4 juin qu’il allait acquérir Tabular pour un montant non précisé. Ali Ghodsi, CEO et cofondateur de Databricks, a tout de même indiqué auprès du Wall Street Journal que l’acquisition se tient dans une fourchette comprise entre 1 et 2 milliards de dollars. La clôture de l’acquisition doit avoir lieu avant le 31 juillet et la majorité des 40 employés rejoindront Databricks, ajoute le dirigeant.
Tabular est l’éditeur d’un moteur de stockage managé proposant un ensemble de services par-dessus (et en dessous) des tables Apache Iceberg.
La plateforme de Tabular sert principalement à gérer le stockage et la réplication des données, à optimiser les tables et à gérer l’ensemble des métadonnées liées aux tables Iceberg, via le protocole REST associé au (presque) standard open source. Il s’agit en clair de créer des data warehouses modulaires s’appuyant sur un espace de stockage objet et plusieurs moteurs de traitement dont Apache Spark, Trino, Flink ou encore DuckDB.
En fait, Tabular est considéré comme l’inventeur originel d’Apache Iceberg, concurrent de Delta Table, le format associé avec la couche de stockage ACID ouverte inventée par Databricks, Delta Lake.
Apache Iceberg + Delta Lake = « lakehouse ouvert »
« En réunissant les créateurs originaux d’Apache Iceberg et Delta Lake de la Fondation Linux, les deux principaux formats open source, Databricks ouvrira la voie à la compatibilité des données, de sorte que les organisations ne soient plus limitées par le format de leurs données », avance Databricks dans un billet de blog.
Ryan BlueCofondateur et CEO, Tabular
« À l’instar du choix entre les standards HD DVD et Blu-ray, le problème n’est pas de déterminer quelle norme est la meilleure. Le problème est que le risque d’investir dans le mauvais format empêche les gens de faire le moindre choix », insiste de son côté Ryan Blue, cofondateur et CEO de Tabular dans un billet de blog.
L’un des objectifs du rachat serait d’assurer la pertinence des « lakehouse ouverts » par rapport aux solutions propriétaires, dont BigQuery et Snowflake.
« Contrairement aux entrepôts de données propriétaires, où seul un moteur SQL propriétaire peut lire, écrire ou partager les données, celles-ci doivent souvent être copiées et exportées pour être utilisées par d’autres applications, ce qui crée un degré élevé de dépendance vis-à-vis du fournisseur », assure Databricks.
L’éditeur jette la pierre à ses concurrents alors que certaines de ces briques – dont Delta Live Table et son moteur d’optimisation des requêtes Delta Engine, ainsi que d’autres composants de la plateforme – sont propriétaires.
Un jour avant que Databricks annonce le rachat de Tabular, Snowflake a lancé le projet Polaris, qui sera open sourcé d’ici trois mois, afin de permettre l’accès à différents moteurs de requêtes tiers aux tables Iceberg stockées dans sa plateforme. Polaris est pris en charge par Microsoft, Dremio, Salesforce, AWS, Google Cloud et Confluent. Snowflake a également dévoilé la Delta Direct, un moyen de convertir des tables Delta en Iceberg, dans une forme de réciprocité avec UniForm (Delta Universal Format), permettant de lire des tables Delta avec des clients Iceberg.
Un coup bas en direction de Snowflake
Databricks aurait pu attendre une semaine pour faire son annonce. Pour rappel, son événement annuel a lieu du 10 au 13 juin, une conférence que LeMagIT couvrira.
Doug HenschenAnalyste, Constellation Research
« Le timing de cet accord est manifestement destiné à prendre une partie des projecteurs du Snowflake Summit, mais aussi à surpasser son concurrent en matière de messages d’ouverture, en suggérant qu’il aura une grande influence sur l’avenir de la norme Iceberg ainsi que sur Delta Lake », considère Doug Henschen, analyste chez Constellation Research, dans un billet de blog.
De fait, Databricks emploie les contributeurs principaux de Delta Lake et s’apprête à engager ceux-là mêmes qui dirigent le projet Apache Iceberg. Peu importe si ces deux solutions sont sous l’ombrelle d’une fondation open source, permettant – en théorie – d’assurer la neutralité des projets au regard des éditeurs, il est évident que le concurrent de Snowflake gagnera un levier de plus pour tenter de guider l’avenir de ces deux projets.
« Rejoindre Databricks signifie qu’il y aura plus de contributions de la part de nos nouveaux collègues, et que nous travaillerons également à améliorer le support d’Iceberg sur l’ensemble de la plateforme Databricks », déclare Ryan Blue. « Notre objectif est d’améliorer l’interopérabilité afin que vous puissiez profiter du travail des deux communautés sans avoir à vous soucier du format sous-jacent. Tout en faisant cela, nous assurons que notre approche de la communauté Iceberg elle-même ne change pas », promet-il.
Open source : Databricks serait-il un « freak control » ?
Ce n’est pas l’avis de James Malone, directeur de la gestion produit stockage et ingénierie de données chez Snowflake.
James MaloneDirecteur gestion produit stockage et ingénierie de données, Snowflake
« C’est un point important à noter que Databricks ne prend pas en charge ce qu’ils ne peuvent pas contrôler ; alors que nous avons mis en œuvre le support Iceberg et Parquet (ainsi que beaucoup d’autres) sans avoir à nous assurer que nous pouvions contrôler l’écosystème », écrit-il sur LinkedIn.
« Tout l’intérêt de Polaris est le contraire du fait d’acquérir une société comme Tabular. Nous ne devrions pas, et ne voulons pas, contrôler le catalogue, le format de table ou le format de fichier », poursuit-il. « Dépenser de l’argent pour prendre le contrôle est l’antithèse de ce que nous, du moins, essayons de faire. Si quelque chose est vraiment ouvert et que vous appréciez l’ouverture, dépenser de l’argent pour le contrôler est curieux ».
Pour rappel, Databricks a racheté MosaicML, fournisseur d’une plateforme d’optimisation des charges de travail IA sur des GPU pour 1,3 milliard de dollars et est valorisé 45 milliards de dollars depuis sa précédente levée de fonds de 500 millions de dollars en septembre 2023. L’année dernière, il a réalisé un chiffre d’affaires de 1,6 milliard de dollars, soit un de moins que Snowflake sur la même période.