Snowflake renforce sa couche de gouvernance Horizon

Lors de sa conférence annuelle, l’éditeur du lakehouse a dévoilé un lot d’annonces consacrées à la prise en charge d’Apache Iceberg, enfin en disponibilité générale, et sa couche de gouvernance qui s’étoffe pour simplifier la gestion des données et métadonnées. Reste à réellement généraliser cette gestion à travers plusieurs régions d’un même cloud, puis plusieurs clouds.

Quand Snowflake évoque sa plateforme, il présente quatre couches : les fondations de données, la collaboration, l’IA et les applications.

Si l’éditeur met beaucoup en avant ses progrès dans l’IA générative, il doit encore consolider ses couches basses.

Outre le projet d’ouvrir l’accès à d’autres moteurs de requêtes pour cibler des tables Apache Iceberg, il annonce enfin la disponibilité générale après deux ans de préversion. Près de 300 clients n’ont pas attendu cette disponibilité générale pour adopter ce format ouvert permettant une portabilité des données plus aisée.

Les tables Iceberg peuvent être mises au cœur de plusieurs charges de travail, dont les pipelines Snowpark, Streams, ou encore être incorporés dans des tables dynamiques, une fonction qui entrera prochainement en préversion publique.

Apache Iceberg sur Snowflake enfin en disponibilité générale

Surtout, les tables Iceberg sont les seuls dans la plateforme à pouvoir prendre en charge des arrays, des objets et des map structurés.

Snowflake a également présenté la préversion privée de Parquet Direct, un moyen d’utiliser les capacités d’Iceberg sans avoir à réécrire ou copier les fichiers Parquet. De la même manière, il lance Delta Direct, un moyen d’accéder à des tables Delta Lake « bronze et silver », le format de tables mis sur pied par Databricks. En clair, Snowflake veut se rendre compatible avec le format UniForm (Universal Format) imaginé par son concurrent.

Toujours du côté des formats ouverts, l’éditeur assure qu’il accélère « jusqu’à 25 % » les injections de fichiers JSON dans sa plateforme et « jusqu’à 50 % » le chargement des fichiers Parquet, tout en préparant de nouveaux connecteurs pour PostgreSQL et MySQL, en préversion publique bientôt, et pour Google Analytics, en disponibilité générale.

Quant aux traitements analytiques, l’éditeur renforce sa prise en charge des données time series avec la disponibilité générale des jointures ASOF. C’est un moyen de rapprocher une paire d’enregistrements en provenance de deux tables suivant leur proximité temporelle. Il s’agit de simplifier le rapprochement d’enregistrements, qui réclame habituellement d’exécuter des sous-requêtes. De même, les fonctionnalités time series « RANGE BETWEEN » (bientôt en préversion publique) et Higher-order Functions (en disponibilité générale), doivent étoffer les analyses « sans recourir à des requêtes complexes ou à des UDFs personnalisées ».

Horizon : une consolidation de la gouvernance en cours

Tout cela, selon Snowflake, est interconnecté à Horizon, sa couche de gouvernance. En sus d’ajouts consacrés à sa couche d’authentification et à la protection du réseau de son système (des liens réservés seront prochainement disponibles en préversion privée), l’éditeur a dernièrement présenté des politiques de gestion des agrégations et des projections.

Les politiques d’agrégation doivent obliger les analystes à requêter les données sous forme d’agrégats et non plus ligne par ligne. Il est d’ailleurs possible de décider d’un minima de lignes au sein d’une table ou d’une vue autorisée avant de pouvoir exécuter une requête.

Les règles de projection de colonne doivent, elles, empêcher certains utilisateurs de projeter une colonne à partir d’une requête SELECT sur une vue ou une table.

En préversion privée cette fois-ci, Snowflake propose un système de classification automatique des données sensibles et prépare la propagation automatique de l’étiquetage de données.

Dans cette lignée, Universal Search entre en disponibilité générale. C’est un moteur de recherche qui doit permettre de retrouver les données, les documents, les applications et les modèles plus simplement. La technologie est directement dérivée de Neeva, une entreprise rachetée par Snowflake il y a un an et dont le fondateur est devenu le CEO de son acquéreur. Certaines des fonctions de recherche basée sur des tokens, de la recherche plein texte (bientôt en préversion publique) et l’indexation des données géospatiale (en disponibilité générale) doivent par ailleurs permettre d’améliorer les capacités de recherche dans les requêtes exécutées sur la plateforme analytique.

« Si Snowflake est bien connu pour sa façon d’abstraire la complexité et de faciliter les choses, vous nous verrez tirer parti de l’opportunité que représente l’IA pour passer au niveau supérieur. »
Christian KleinermanVice-président produits, Snowflake

Comme promis, l’éditeur est en train de mettre en place des fonctions d’automatisation de la gouvernance, à commencer par Object Insight Interface qui doit permettre de communiquer des informations supplémentaires sur la popularité d’un objet (en fréquence d’accès), sa qualité et ses dépendances. Plus tard cette année, l’éditeur prévoit un moyen de générer automatiquement les descriptions des tables et des vues.

« Si Snowflake est bien connu pour sa façon d’abstraire la complexité et de faciliter les choses, vous nous verrez tirer parti de l’opportunité que représente l’IA pour passer au niveau supérieur », avance Christian Kleinerman, vice-président directeur des produits chez Snowflake, lors d’une conférence de presse.

À noter que le concurrent de Databricks prévoit de reproduire sa logique de marketplace pour des usages internes. Il s’agit de proposer un dépôt centralisé des produits de données accessibles par les métiers suivant leur fonction. « C’est en préversion privée et nous allons faire en sorte que cette marketplace interne soit disponible le plus rapidement possible », promet Christian Kleinerman.

Pour des usages externes ou dans des contextes sensibles, les data clean rooms entrent en disponibilité générale dans certaines régions. Ces environnements permettent de déployer des algorithmes depuis une interface utilisateur que Snowflake présente comme simple à prendre en main.

Il faudra toutefois attendre pour bénéficier des configurations de règles de confidentialité granulaires, notamment pour empêcher la réidentification des données, tandis que les politiques d’agrégations spécifiques aux entités (nom d’une personne, entreprise, clients, etc.) peuvent être appliquées dans cet environnement. En parallèle, le Trust Center – un espace pour gérer les politiques et observer les problèmes de sécurité, dont la mauvaise application de la MFA – entre en disponibilité générale.

Ces mesures en matière de sécurité sont complémentaires de l’extension de la visualisation de la traçabilité des modèles d’IA, en préversion privée, et des vues, « bientôt en préversion publique ». En outre, le service de mesure de la qualité des données, Data Quality Monitoring, entrera « prochainement » en disponibilité générale.

Étendre la couche de gouvernance à plusieurs clouds

Benoit Dageville, cofondateur et président du produit chez Snowflake, estime que les fonctions de gouvernance de la plateforme sont désormais matures. Il reste qu’il faut les rendre accessibles à travers plusieurs régions d’un même cloud et sur plusieurs clouds.

« Snowflake a été construit autour de l’idée d’avoir un seul catalogue avec des autorisations très fines par-dessus. ».
Benoit DagevilleCofondateur et président produit, Snowflake

« Depuis le premier jour, Snowflake a été construit autour de l’idée d’avoir un seul catalogue avec des autorisations très fines par-dessus », assure-t-il. « Horizon expose ce catalogue afin qu’il n’y ait qu’un seul modèle de privilège qui s’applique à toutes les fonctions de la plateforme Snowflake ».

Pour autant, cette gestion de la gouvernance a été longtemps cloisonnée à un cloud spécifique. « Nous nous rendons compte que les entreprises utilisent de plus en plus souvent plusieurs clouds et que leurs déploiements sont distribués », note Benoît Dageville. « C’est pourquoi nous nous concentrons actuellement sur ce catalogue distribué et sur la création de ces capacités entre différents comptes et différents clouds ».

« Horizon expose ce catalogue afin qu’il n’y ait qu’un seul modèle de privilège s’applicant à toutes les fonctions […] ».
Benoit DagevilleCofondateur et président produit, Snowflake

Pour rappel, sur les plus de 9 800 clients de Snowflake, plus de 7 500 d’entre eux déploient leurs instances sur AWS. Comme le précise Christian Kleinerman, l’unification des fonctions de gouvernance sous le nom Horizon date de novembre 2023.

À titre de comparaison, Databricks a dévoilé sa couche de gouvernance unifiée Unity en 2022 et propose des fonctionnalités similaires que les clients rencontrés par LeMagIT estiment « sèches ». Certains d’entre eux ont d’ailleurs fait le choix de Databricks par rapport à Snowflake au regard de la couverture fonctionnelle de cette couche de gouvernance.

De fait, la politique de gestion de ces mises à jour dessert Snowflake. S’il balise correctement l’avancée de ses nouvelles fonctionnalités, l’éditeur n’offre pas de calendrier suffisamment précis permettant aux clients ou aux prospects de se rassurer sur la maturité de certaines briques de la plateforme. Shridar Ramaswamy, CEO de Snowflake depuis trois mois, en a conscience.

« Nous savons que vous voulez que nous délivrions nos fonctionnalités en disponibilité générale plus rapidement », reconnaît-il. « Et cela compte particulièrement dans le domaine de l’IA où les choses changent toutes les semaines ». L’éditeur n’a toutefois pas étayé cette affirmation par une modulation de son cycle de mise à jour ni par l’établissement d’un calendrier de sorties plus prévisible.

Pour approfondir sur MDM - Gouvernance - Qualité

Close