Cet article fait partie de notre guide: Les stratégies clés autour du Data Mesh

Snowflake s’attelle à la gouvernance des données et des coûts

L’éditeur a présenté plus d’une douzaine de fonctionnalités, actuellement à différents stades de développement, toutes dans le but d’aider à mieux construire et à gouverner les modèles de données et les applications.

« Pour nous, le raisonnement est assez simple. Nous ne croyons pas que les organisations seront en mesure d’avoir une stratégie et une application réussie de l’IA, sans de solides fondations en matière de gestion de données », avance Christian Kleinerman, vice-président senior Produit, chez Snowflake, en préambule d’une conférence de presse.

En ce sens, Snowflake a dévoilé Horizon. Horizon est présentée comme la nouvelle couche de gouvernance de Snowflake, qui unifie les capacités de conformité, de sécurité, de confidentialité, d’interopérabilité et d’accès de l’éditeur dans un seul environnement.

Son introduction est conçue pour simplifier la gouvernance des données en réunissant des fonctionnalités auparavant disparates. Avec Horizon, les administrateurs de données n’auront plus besoin de naviguer dans de nombreux outils différents au sein de Snowflake pour superviser les données de leur organisation – ce que Christian Kleinerman a qualifié de l’un des fondements les plus importants de l’éditeur.

Snowflake revoit – légèrement – sa couche de gouvernance

Horizon rassemble les fonctionnalités suivantes :

  • Le contrôle de la qualité des données qui permet aux utilisateurs de mesurer et d’enregistrer des paramètres concernant la fraîcheur, la précision, le volume des données ainsi que d’autres statistiques définies par les utilisateurs.
  • Une interface utilisateur de traçabilité des données, qui permet aux clients de voir le lignage de leurs données et la manière dont les données utilisées dans une partie du processus analytique peuvent affecter l’utilisation ultérieure de ces mêmes données.
  • Trust Center pour centraliser le contrôle de la sécurité et de la conformité à travers le cloud en un seul endroit.
  • Un système de classification automatique de données pour aider les administrateurs à définir les données sensibles.
  • De nouvelles politiques de confidentialité pour protéger les données sensibles.
  • De nouvelles certifications, notamment la conformité au Cyber Essentials Plus du Royaume-Uni, aux Criminal Justice Information Services et StateRAMP High du FBI, ainsi qu’à l’autorisation provisoire Impact Level 4 du ministère de la Défense des États-Unis sur AWS GovCloud.

Les certifications sont généralement disponibles, tandis que le contrôle de la qualité des données et l’UI consacrée à la traçabilité des données sont accessibles en préversion privée. Les politiques de confidentialité, la fonction d’autoclassification des données sensibles, ainsi que le Trust Center n’ont pas encore atteint le stade de la préversion.

Pour rappel, Databricks a présenté son catalogue Unity en 2022 et Google Cloud a dévoilé son Dataplex en 2021.

« Horizon est… en partie une réponse à des concurrents comme Databricks et Google qui ont mis leur système de data catalog au premier plan », constate Doug Henschen, analyste chez Constellation Research. « Snowflake disposait déjà d’un catalogue et de multiples capacités de gouvernance. Mais ils rassemblent maintenant tout sous l’égide d’Horizon et offrent une vision plus claire et plus complète de ce qui nous attend ».

Une prise en charge progressive d’Apache Iceberg

Outre le lancement d’Horizon, Snowflake communique à nouveau sur la prise en charge du format de tables open source Apache Iceberg. Celui-ci « sera disponible en préversion publique dans différentes régions du cloud plus tard ce mois-ci », indique Christian Kleinerman.

Snowflake précise qu’il laissera le choix aux clients d’utiliser le magasin (store) de métadonnées de l’éditeur ou une solution tierce managée.

Selon Benoît Dageville, cofondateur et président responsable du produit chez Snowflake, le niveau de performance d’Iceberg est désormais proche de celui offert avec le format de table propriétaire de la plateforme. Lors du Data Cloud Tour parisien de l’éditeur, le président de l’entreprise, Franck Slootman, affirmait que le format est recommandé, voire essentiel pour les entreprises régulées, dont les banques, qui doivent pouvoir s’assurer d’une forme de réversibilité de leurs données.

En ce sens, Benoît Dageville rappelle que Snowflake a signé des partenariats avec Pure Storage et Dell afin d’intégrer une couche d’API dans leurs appliances on premise compatible S3 permettant de requêter les données sur site depuis la plateforme Snowflake.

« Auparavant, interroger des tables externes était très lent, Apache Icebeg a en quelque sorte changé la donne », affirme Benoît Dageville.

Qui plus est, Apache Iceberg est considéré comme l’une des fondations des « modern data stack », celles qui doivent simplifier la mise en œuvre de l’approche Data Mesh.

« Le format de table Iceberg permet de collecter et de décrire l’ensemble des fichiers (au format Parquet) contenus dans une table, et leurs évolutions. »
Benoît DagevilleCofondateur et président responsable du produit, Snowflake

« Le format de table Iceberg permet de collecter et de décrire l’ensemble des fichiers (au format Parquet) contenus dans une table, et leurs évolutions. L’on gère ainsi des versions de tables », résume le président responsable du produit.

Cela permet, entre autres, de mieux tracer les données et leurs transformations.

« Nous étions parmi les premiers à proposer un format de table en 2012, un concept qu’Hadoop n’avait pas introduit. Nous pouvons répliquer tout ce que l’on fait avec le format Snowflake sur Iceberg », poursuit Benoît Dageville.

Snowflake a toutefois pris du retard : il s’est fait dépasser par Cloudera qui a introduit la disponibilité générale du format de tables en juin dernier.

La gestion des coûts, une priorité pour les clients de Snowflake

Enfin, le président responsable du produit évoquait au début du mois d’octobre la préoccupation des clients en matière d’optimisation des coûts. Un sujet évoqué pour l’occasion par les responsables d’Accor et d’Ubisoft lors de l’événement parisien de l’éditeur.

« Les clients ont compris l’intérêt de notre vision et du cloud. Le problème, désormais, c’est le finOps. L’on passe d’un modèle où les capacités sont contraintes par l’infrastructure sur site, à un autre sans limites si l’on n’en met pas », expliquait Benoît Dageville. « Les entreprises n’ont pas l’habitude de ce nouveau modèle ».

« Nous nous engageons à fournir à tous nos clients les outils et les informations qui leur permettront de gérer financièrement et d’assurer une utilisation efficace de Snowflake », promet Christian Kleinerman, en amont de la conférence Snowday 2023.

Ainsi, l’interface de gestion des coûts de l’éditeur est désormais en préversion privée. Elle doit aider les usagers à mieux prédire et gérer les coûts des charges de travail dans Snowflake, un exercice qui n’a rien d’aisé, peu importe la solution cloud.

L’outil permet de visualiser les requêtes les plus chères, la charge des data warehouse ou encore obtenir des recommandations d’optimisation. Les administrateurs peuvent configurer des limites de budgets et de consommation de ressources.

« Les clients seront peut-être plus enthousiastes à l’égard de l’interface de gestion des coûts. C’est un sujet de préoccupation pour les clients qui ont pu être surpris par leurs factures Snowflake. »
Dave MenningerAnalyste, Vantana Research

Étant donné qu’Horizon est en grande partie un reconditionnement pour des capacités existantes, pour Dave Menninger, analyste chez Vantana Research, cette console de contrôle des coûts semble plus attractive.

« Les clients seront peut-être plus enthousiastes à l’égard de l’interface de gestion des coûts », déclare-t-il. « C’est un sujet de préoccupation pour les clients qui ont pu être surpris par leurs factures Snowflake. Ces nouvelles fonctionnalités devraient faciliter ce suivi et éviter les dépenses imprévues ».

Certains acteurs n’ont pas attendu que Snowflake fournisse cette fonctionnalité. L’éditeur français Toucan Toco proposait déjà un moyen pour ses clients de visualiser leurs dépenses dans Snowflake.

D’autres clients, constatant que c’était le coût de traitement et non de stockage qui coûte réellement cher sur Snowflake, ont opté pour des stratégies plus spécifiques. Ils recourent à certains types d’instances au moment des phases de calcul les plus gourmandes, par exemple le lundi afin de préparer des rapports BI, et optent pour des instances de taille réduite le reste du temps.

Pour approfondir sur MDM - Gouvernance - Qualité

Close