Dans le petit monde des données, le format de table de données Apache Iceberg a été au centre de l’actualité.

Depuis les débuts de l’entreposage de données, les éditeurs ont fait en sorte de contrôler le format de données afin de pouvoir empêcher les clients de se tourner aisément vers d’autres fournisseurs. L’ère du stockage objet et l’arrivée sur la place de moteurs de requêtes et de format de données open source a changé la donne. L’idée, permettre une forme d’indépendance par rapport aux moteurs de requêtes et aux espaces de stockage.

Cette tendance émergeant de l’ère Hadoop a été mise en œuvre par quelques acteurs, dont Databricks. Son format de tables Delta Lake, donné à la Fondation Linux en 2019, perd peu à peu en popularité face à Apache Iceberg. Comme Delta Lake, Iceberg enrobe des fichiers Apache Parquet de métadonnées afin de conserver plusieurs versions d’une même table, retrouver des informations, les gouverner (entre autres).

La semaine dernière, Databricks a annoncé l’acquisition de Tabular, une startup dont les fondateurs sont les créateurs originaux du format Iceberg. Lors du Data+AI Summit 2024, l’éditeur a précisé ses intentions. Il entend « rapprocher Delta Lake et Iceberg » pour que plus personne ne se pose la problématique éculée liée aux multiples standards USB.

Un « rapprochement entre Apache Iceberg et Delta Lake » Selon Ryan Blue, cofondateur de Tabular et d’Apache Iceberg, « les deux formats sont suffisamment bons que cela ne justifie plus la déduplication des efforts ». Toutefois, les parties prenantes n’ont pas expliqué comment. L’on sait juste que ce rapprochement passera par UniForm. UniForm est un mécanisme open source mis sur pied par Databricks pour lire les tables au format Delta avec les clients Iceberg et Apache Hudi comme s’ils traitaient des données dans leur format respectif. Cette fonction revient ni plus ni moins à la conversion de la couche de métadonnées dans des éléments propres au format Delta Lake. « UniForm prend déjà en charge les deux formats de table, nous avons juste à le rendre meilleur », assure Ali Ghodsi, PDG de Databricks. « Quant aux efforts à mener pour ce rapprochement, c’est une question très technique et difficile à répondre. Personne aujourd’hui n’a la réponse, mais Ryan Blue et Michael Armbrust, le créateur de Delta Lake vont travailler ensemble afin d’essayer de déterminer les décisions techniques à prendre », ajoute-t-il. Selon le dirigeant de Databricks, les deux ingénieurs ont toutefois « des pistes solides » pour y arriver. « Ils pensent que c’est faisable. En réalité, ils sont plus optimistes quant à la vitesse de ce rapprochement que je ne le suis. J’espère qu’ils ont raison et moi tort ». Dans un même temps, certains porte-parole chez le concurrent direct de Databricks, Snowflake, ont perçu l’acquisition de Tabular comme un moyen de prendre le contrôle sur Apache Iceberg. Selon les statistiques partagées par Dremio et Cloudera, environ 20 à 30 % des contributions au projet Apache Iceberg, la part la plus importante provient des ingénieurs engagés par Tabular. Un autre concurrent souligne le fait que Databricks propose des implémentations propriétaires de technologies open source. « En dépit de ses prétentions en tant que société d'hébergement de données ouvertes, Databricks n'est PAS réputée pour être fidèle à l'open source », répond Venkat Rajaji, SVP Product Management chez Cloudera, dans un billet de blog. « Contrairement à Tabular, Databricks a réalisé des versions commerciales sous la forme d'implémentations propriétaires de technologies open source afin de conserver la fidélité de ses clients, et il faudra voir si ce changement [le rachat de Tabular par Databricks] modifie cette approche ».