Snowflake s’engage à une prise en charge « complète » d’Apache Iceberg

Trois ans après avoir fourni une prise en charge limitée pour le stockage de tables en format ouvert, le spécialiste de la gestion de données signale son adhésion à l’open source avec un support (pratiquement) complet pour Apache Iceberg.

Snowflake a dévoilé mardi une prise en charge « complète » des tables Apache Iceberg. Il applique désormais aux tables Iceberg stockées en externe pratiquement les mêmes capacités de performance des requêtes, de partage des données et de gouvernance, que celles appliquées nativement aux formats de tables propriétaires de Snowflake.

Apache Iceberg est un format de table open source pour le stockage de grands ensembles de données dans des lacs de données ouverts et des entrepôts de données. C’est une enveloppe par-dessus un format de fichier, généralement Parquet. Parce qu’il s’agit d’un format de table – une structure de données pour organiser les informations – plutôt que d’un format de fichier, Iceberg peut fournir une couche de métadonnées au-dessus des fichiers de données. Cela facilite la gestion des données et la découverte d’informations pertinentes pour informer les applications d’analyse et d’IA.

Snowflake permettait auparavant à ses clients d’utiliser sa plateforme en conjonction avec les tables Iceberg. Cependant, il y avait des limitations.

Une quasi-parité entre les tables Snowflake et Iceberg

Jusqu’à présent, seules certaines fonctionnalités centrales de Snowflake (telles que la gouvernance et la sécurité) étaient disponibles pour les tables Iceberg, ce qui obligeait les utilisateurs à choisir entre la flexibilité (permise par le stockage des données dans des tables ouvertes) et l’étendue de la plateforme « Data Cloud » (permise par le format propriétaire Snowflake).

Étant donné que les utilisateurs communs du format propriétaire et d’Iceberg n’ont plus à faire ce choix, cela est significatif, selon Michael Ni, analyste chez Constellation Research. « C’est ainsi que Snowflake résout le dilemme entre l’ouverture et les formats propriétaires, » a-t-il déclaré. « [Snowflake] a progressivement gonflé les performances d’Iceberg. Aujourd’hui, ils affirment qu’il n’est plus nécessaire de faire de compromis. Il ne s’agit pas simplement d’une mise à jour fonctionnelle. C’est un signal clair : Snowflake s’engage pleinement en faveur des formats ouverts. »

« [Snowflake] a progressivement gonflé les performances d’Iceberg. […] Il ne s’agit pas simplement d’une mise à jour fonctionnelle. C’est un signal clair : Snowflake s’engage pleinement en faveur des formats ouverts. »
Michael NiAnalyste, Constellation Research

Basée à Bozeman, dans le Montana, mais sans siège social centralisé, Snowflake est un fournisseur de cloud de données qui, à l’instar de nombreux spécialistes de la gestion des données, s’est lancé dans le développement de l’IA au cours des deux dernières années.

Alors que les entreprises adoptent la philosophie data mesh pour connecter les opérations de données d’une organisation à travers différents domaines, les formats de table ouverts qui fonctionnent avec différents systèmes sans obliger les utilisateurs à faire des copies de données gagnent en popularité.

En outre, les entreprises craignant le verrouillage propriétaire, les outils open source permettent de développer des infrastructures de données sans s’aligner sur un fournisseur de gestion de données en particulier.

Les formats de tables open source les plus répandus sont Iceberg, Delta Lake et Apache Hudi. Iceberg est le plus populaire. En conséquence, de nombreux éditeurs de gestion de données ajoutent la prise en charge du format conçu par Netflix en 2017 et publié en tant que projet Apache en 2021.

Par exemple, Dremio, SingleStore et Starburst permettent aux utilisateurs de stocker des données dans des tables Iceberg. Même Databricks, le rival de Snowflake, qui a contribué au développement de Delta Lake et continue de faire progresser ses capacités, a ajouté la prise en charge d’Iceberg.

Snowflake a introduit un support partiel pour les tables Iceberg en 2022. Désormais, grâce au catalogue open source Polaris, les utilisateurs peuvent presque obtenir les mêmes avantages qu’avec le format propriétaire de l’éditeur : l’amélioration des performances des requêtes, la gouvernance, le partage, la sécurité et les capacités de reprise après sinistre des données Iceberg, peu importe où elles soient stockées.

Des limitations persistent

Pour autant, les services de recherche optimisés et d’accélération des requêtes – plus particulièrement d’optimisation du planificateur de requêtes sur les tables Iceberg – ne sont pas encore en disponibilité générale. La préversion lancée en mars promet un gain de 30 % en matière de consommation de mémoire pour les scénarios hautement concurrents et des exécutions 70 % plus rapides des grosses requêtes. Ce sont en tout cas les moyennes relevées lors de tests internes effectués sur 60 comptes Snowflake.

Il n’est toujours pas possible d’écrire des données avec un catalogue de métadonnées externe, par exemple AWS Glue ou un catalogue Polaris self managé. À noter toutefois, que la possibilité de lire des tables Iceberg depuis celles de Delta Lake hébergées sur un stockage objet est en disponibilité générale.

Autre limitation, davantage liée au format Iceberg, les types de données VARIANT ne sont pas encore pris en charge. Snowflake affirme participer à cet effort avec le reste de la communauté Apache Iceberg.

La réplication et la synchronisation des données dans les tables Iceberg – essentielles à certains cas d’usage et à la sécurisation des données – ne sont accessibles qu’en préversion privée.

« Vous n’avez pas besoin de vous enfermer dans le format de Snowflake pour tirer parti de certaines de ses meilleures fonctionnalités. ».
Michael NiAnalyste, Constellation Research

Peu importe, selon l’analyste de Constellation Research. « Le véritable avantage, c’est la liberté », avance Michael Ni. « Vous n’avez pas besoin de vous enfermer dans le format de Snowflake pour tirer parti de certaines de ses meilleures fonctionnalités. C’est exactement ce que demandent les responsables du traitement de données ».

Pour Matt Aslett, analyste chez ISG Software Research, il s’agit là « d’améliorations incrémentales », mais c’est « significatif en matière de flexibilité et d’une plus grande simplicité ».

Il faut dire que Snowflake est pressé par ses clients.

« Ce qui est clair, c’est que les clients réclament de l’ouverture », assure Saurin Shah, senior product manager chez Snowflake. « Cela leur offre une plus grande efficience économique, une simplicité et, surtout, une police d’assurance pour éviter le verrouillage propriétaire ».

Certaines entreprises préfèrent le format propriétaire de l’éditeur, qui serait « plus simple » à gérer. D’autres, en revanche, choisissent sans hésiter un format de stockage open source, pour favoriser à la fois la centralisation et l’interopérabilité des données.

C’est le cas de Medidata, une filiale de Dassault Systèmes.

Snowflake suivi de près par ses concurrents

« Nous n’avons pas l’intention d’avantager l’un ou l’autre », assure Saurin Shah. « Nous voulons donner le choix aux clients en fonction de leurs besoins ».

 Ce n’est pour autant pas une capacité unique à Snowflake. Des éditeurs, dont Dremio et Starburst, adoptent fidèlement le standard Iceberg, tandis que des acteurs comme Cloudera et même Teradata cherchent à le prendre en charge, tandis que Databricks privilégie encore son format open source Delta Lake. 

« C’est un moyen pour Snowflake d’affirmer qu’ils font partie d’un écosystème open source. Et c’est ce qu’attend le marché, une ouverture par défaut », comprend Michael Ni. Sur son communiqué de presse, l’éditeur vante sa participation aux projets NiFi, Polaris, ainsi que les rachats de Modin, Streamlit et TrueEra, trois éditeurs de technologies open source.

« Clairement, tous les éditeurs n’offrent pas le même niveau de prise en charge d’Apache Iceberg », confirme Matt Aslett. « Cependant, Snowflake est l’un des acteurs les plus progressifs en la matière ».

Selon Saurin Shah, cette prise en charge serait de simplifier l’analytique infusée à l’IA. De nouvelles fonctionnalités seront annoncées lors de la conférence annuelle Snowflake, en juin prochain.

Pour approfondir sur Formats et Archivage