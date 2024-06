Le spécialiste de la gestion de données a annoncé le 4 juin qu’il allait acquérir Tabular pour un montant non précisé. Ali Ghodsi, CEO et cofondateur de Databricks, a tout de même indiqué auprès du Wall Street Journal que l’acquisition se tient dans une fourchette comprise entre 1 et 2 milliards de dollars. La clôture de l’acquisition doit avoir lieu avant le 31 juillet, ajoute le dirigeant.

Tabular est l’éditeur d’un moteur de stockage managé proposant un ensemble de services par-dessus (et en dessous) des tables Apache Iceberg.

La plateforme de Tabular sert principalement à gérer le stockage et la réplication des données, à optimiser les tables et à gérer l’ensemble des métadonnées liées aux tables Iceberg, via le protocole REST associé au (presque) standard open source. Il s’agit en clair de créer des data warehouses modulaires s’appuyant sur un espace de stockage objet et plusieurs moteurs de traitement dont Apache Spark, Trino, Flink ou encore DuckDB.

En fait, Tabular est considéré comme l’inventeur originel d’Apache Iceberg, concurrent de Delta Table, le format associé avec la couche de stockage ACID ouverte inventée par Databricks, Delta Lake.

Apache Iceberg + Delta Lake = « lakehouse ouvert » « En réunissant les créateurs originaux d’Apache Iceberg et Delta Lake de la Fondation Linux, les deux principaux formats open source, Databricks ouvrira la voie à la compatibilité des données, de sorte que les organisations ne soient plus limitées par le format de leurs données », avance Databricks dans un billet de blog. « Le problème est que le risque d’investir dans le mauvais format empêche les gens de faire le moindre choix. » Ryan BlueCofondateur et CEO, Tabular « À l’instar du choix entre les standards HD DVD et Blu-ray, le problème n’est pas de déterminer quelle norme est la meilleure. Le problème est que le risque d’investir dans le mauvais format empêche les gens de faire le moindre choix », insiste de son côté Ryan Blue, cofondateur et CEO de Tabular dans un billet de blog. L’un des objectifs du rachat serait d’assurer la pertinence des « lakehouse ouverts » par rapport aux solutions propriétaires, dont BigQuery et Snowflake. « Contrairement aux entrepôts de données propriétaires, où seul un moteur SQL propriétaire peut lire, écrire ou partager les données, celles-ci doivent souvent être copiées et exportées pour être utilisées par d’autres applications, ce qui crée un degré élevé de dépendance vis-à-vis du fournisseur », assure Databricks. L’éditeur jette la pierre à ses concurrents alors que certaines de ces briques – dont Delta Live Table et son moteur d’optimisation des requêtes Delta Engine, ainsi que d’autres composants de la plateforme – sont propriétaires. Un jour avant que Databricks annonce le rachat de Tabular, Snowflake a lancé le projet Polaris, qui sera open sourcé d’ici trois mois, afin de permettre l’accès à différents moteurs de requêtes tiers aux tables Iceberg stockées dans sa plateforme. Polaris est pris en charge par Microsoft, Dremio, Salesforce, AWS, Google Cloud et Confluent. Snowflake a également dévoilé la Delta Direct, un moyen de convertir des tables Delta en Iceberg, dans une forme de réciprocité avec UniForm (Delta Universal Format), permettant de lire des tables Delta avec des clients Iceberg.

Un coup bas en direction de Snowflake Databricks aurait pu attendre une semaine pour faire son annonce. Pour rappel, son événement annuel a lieu du 10 au 13 juin, une conférence que LeMagIT couvrira. « Le timing de cet accord est manifestement destiné à prendre une partie des projecteurs du Snowflake Summit, […] en suggérant qu’il aura une grande influence sur l’avenir de la norme Iceberg et sur Delta Lake. » Doug HenschenAnalyste, Constellation Research « Le timing de cet accord est manifestement destiné à prendre une partie des projecteurs du Snowflake Summit, mais aussi à surpasser son concurrent en matière de messages d’ouverture, en suggérant qu’il aura une grande influence sur l’avenir de la norme Iceberg ainsi que sur Delta Lake », considère Doug Henschen, analyste chez Constellation Research, dans un billet de blog. De fait, Databricks emploie les contributeurs principaux de Delta Lake et s’apprête à engager ceux-là mêmes qui dirigent le projet Apache Iceberg. Peu importe si ces deux solutions sont sous l’ombrelle d’une fondation open source, permettant – en théorie – d’assurer la neutralité des projets au regard des éditeurs, il est évident que le concurrent de Snowflake gagnera un levier de plus pour tenter de guider l’avenir de ces deux projets. « Rejoindre Databricks signifie qu’il y aura plus de contributions de la part de nos nouveaux collègues, et que nous travaillerons également à améliorer le support d’Iceberg sur l’ensemble de la plateforme Databricks », déclare Ryan Blue. « Notre objectif est d’améliorer l’interopérabilité afin que vous puissiez profiter du travail des deux communautés sans avoir à vous soucier du format sous-jacent. Tout en faisant cela, nous assurons que notre approche de la communauté Iceberg elle-même ne change pas », promet-il.