Iceberg, Polaris : Snowflake tient enfin sa promesse d’interopérabilité

Alors qu’il respecte une promesse faite il y a quatre ans en matière d’interopérabilité, Snowflake entend proposer un moyen de gouverner et d’interroger toutes les tables Iceberg, même quand elles ne résident pas dans son giron.

Repeint aux couleurs de l’IA de la tête au pied, Snowflake n’a pas insisté lors de ses keynotes sur ses avancées en matière de gestion de données. Et pourtant. Il serait de bon ton de crier « enfin ! ».

Enfin, le stockage natif des tables Apache Iceberg est en disponibilité générale, quatre ans après les premiers efforts de prise en charge du standard ouvert. Cela veut dire que les clients « n’ont plus à configurer d’espace de stockage externe ». Snowflake automatise la compression des tables, la gestion des snapshots, et le clustering des requêtes.

En outre, la réplication est en cours d’accélération : l’option Optimized Refresh, en préversion, est concentrée sur le rafraîchissement unitaire des réplications par groupe de failovers. Elle serait jusqu’à 20 fois plus rapide pour les clients qui gèrent de grands nombres d’objets.

Snowflake prend véritablement en charge les tables Apache Iceberg

De même, les tables permanentes (jusqu’à sept jours de restauration) et « transitoires » sont conservées et intégrées au catalogue de données et la couche de gouvernance Horizon. C’est en tout cas vrai pour les régions cloud AWS et Azure, là où les clients de Snowflake sont les plus nombreux. La préversion privée de cette fonctionnalité sur GCP est prévue pour « bientôt ».

« C’est le problème de l’œuf et de la poule. Google Cloud ne représente qu’une petite partie de notre chiffre d’affaires et ce n’est pas forcément la première infrastructure sur laquelle nous développons notre plateforme », affirme Benoît Dageville, cofondateur et président du produit chez Snowflake, lors d’un point presse de la conférence annuelle de l’éditeur. « Leur infrastructure est plus verrouillée ».

Chez Snowflake, la prise en charge de la V3 d’Iceberg a été finalisée le 7 mai dernier. Le format de table open source prend désormais en charge les données géographiques, géométriques, les horodatages à la nanoseconde et le type de données VARIANT. Cette v3 affine également la traçabilité des données actualisées à l’aide de pipelines de Change Data Capture.

« La V3 d’Iceberg est un minimum requis », considère Mickael Ni, analyste chez Constellation Research, dans un billet de blog. « Le marché s’est déjà orienté dans cette direction, et bien que la v3 améliore les performances, le changement le plus important réside dans l’interopérabilité en lecture et en écriture, qui ouvre la voie à davantage de charges de travail opérationnelles et basées sur l’IA ».

L’interopérabilité, désormais une réalité avec Polaris

L’une des bonnes nouvelles pour les clients de l’éditeur, c’est qu’il est désormais possible d’écrire dans les tables Iceberg v2 et v3 gérées par Snowflake avec des moteurs tiers. La fonction est compatible avec Apache Spark, Trino, Starburst, DuckDB, Apache Flink, ou encore Dremio. Cette capacité est propulsée par le projet open source Apache Polaris et l’API REST d’Apache Iceberg.

« Polaris est l’enveloppe de gouvernance qui rend cette ouverture sûre sur le plan opérationnel. Cela revêt une importance capitale pour les secteurs réglementés où l’interopérabilité et le contrôle d’accès doivent coexister plutôt que s’opposer », écrit Bradley Shimmin, analyste chez Futurum Group. « Il s’agit là de la réponse la plus claire apportée à ce jour par Snowflake au défi lancé par Databricks en matière de “lakehouse” ouvert, et elle se présente sous la forme d’une fonctionnalité disponible dès maintenant plutôt que d’une simple diapositive stratégique ».

Pour rappel, Databricks a été le premier à ouvrir sa plateforme et son format de données. Il a confié Delta Lake à la fondation Linux en 2019. Or, peu d’entreprises ont déployé la version open source de la plateforme, tandis que son format de tables ouvert n’a pas connu le même succès qu’Apache Iceberg.

Databricks en a pris acte. Depuis l’acquisition de Tabular, il a travaillé au rapprochement des deux formats. En même temps que la v3 d’Iceberg, Databricks prend lui aussi en charge les lectures et écritures dans des tables Iceberg depuis des moteurs tiers. Cloudera et Microsoft (OneLake) ont également leur méthode pour faire de même. Chez Google BigQuery, la prise en charge semble possible, mais fortement limitée. Avec les services AWS, il faut obligatoirement passer par le catalogue Glue et Lake formation.

En outre, les tables Iceberg gérées par Snowflake peuvent être accédées à travers le catalogue Horizon depuis Polaris, AWS Glue, Palantir Foundry, et plus tard Google BigLake Metastore ou Microsoft Fabric. L’intégration avec l’Unity Catalog de Databricks n’a pas été annoncée. LeMagIT ne manquera pas de poser la question à l’éditeur intéressé dans deux semaines, lors du Data+AI Summit 2026, du 15 au 18 juin à San Francisco.

De son côté, en préversion privée, Snowflake se connecte aux catalogues Iceberg REST externes, dont Unity Catalog, AWS Glue et Microsoft OneLake. Un mécanisme de découverte permet de scanner les tables Iceberg externes, les lire, et y écrire des données. Ces accès aux catalogues et aux espaces de stockage objet externes peuvent être configurés à travers des connexions privées, via des services comme PrivateLink.

Toujours en préversion privée, l’acquisition de Select Star permet à Snowflake de se connecter à PostgreSQL, SQL Server, Databricks, Power BI et Tableau pour y puiser les métadonnées ainsi qu’explorer les schémas, les dépendances, les logs des requêtes et des accès, etc.

Et Snowflake d’étendre son système de partage de données, longtemps exclusif à ses clients. En préversion publique, les clients de Databricks et d’autres solutions du marché peuvent accéder aux données partagées, sans devoir configurer un compte Snowflake.

Par ailleurs, des intégrations Zero copy (managé par Snowflake) sont disponibles pour SAP Business Data Cloud (SAP BDC) et Salesforce. Ces intégrations sont bidirectionnelles. Aveva, Workday et IBM sont les prochains sur la liste.

« Le sujet de l’interopérabilité reste un énorme problème et il n’est pas aussi “sexy” que tout ce qui touche à l’IA ».
Russel Spritzeringénieur logiciel principal, Snowflake et membre du comité de gouvernance d'Apache Polaris

« Le sujet de l’interopérabilité reste un énorme problème et il n’est pas aussi “sexy” que tout ce qui touche à l’IA », affirme Russel Spitzer, ingénieur logiciel principal chez Snowflake et contributeur principal du projet Apache Polaris (entre autres). « À une autre époque, l’interopérabilité et Iceberg auraient été les sujets phares du Summit ».

Garder « la porte ouverte »

Donné par Snowflake et Dremio en 2024 à la fondation Apache, Polaris est un projet Top Level depuis le mois de février 2026. En clair, c’est un projet suffisamment mûr pour être pleinement supporté par la fondation Apache. Le projet dispose de sa propre gouvernance neutre et sa marque est protégée par l’ASF.

« Il est très difficile pour une seule entreprise de s’approprier l’image de marque et de contrôler l’orientation du projet », résume Russel Spitzer.   

Cependant, les clients qui gèrent leurs propres serveurs Apache Polaris ne courent pas les rues. Mais ils existent, selon Russel Spitzer. « Certains ingénieurs nous disent : “nous ne voulons pas que Snowflake gère nos buckets ni notre catalogue. Nous allons nous en occuper nous-mêmes”, poursuit-il.

« D’autres nous disent : “nous voulons que Snowflake s’occupe de toute la gestion, nous ne sommes pas une startup IT, nous fabriquons des voitures, nous ne voulons pas gérer notre propre infrastructure open source”. […] Vous faites un bon choix avec Snowflake parce que vous avez tous ces avantages et la porte reste ouverte ».

Reste à voir si les clients profiteront pleinement de cette ouverture. Les témoignages de gestion fédérée de tables Iceberg ne sont pas légion. En outre, la compatibilité avec Databricks n’est pas totale et les éditeurs en place ne manqueront pas d’exploiter les zones grises de cette interopérabilité.

Pour approfondir sur Formats et Archivage