freshidea - Fotolia

Les nombreuses ramifications de la feuille de route de Snowflake

Snowflake tient cette semaine sa conférence annuelle. Le spécialiste du data warehousing dans le cloud a une nouvelle fois présenté une flopée de fonctionnalités en préversion. Il souhaite fluidifier le partage de données et le développement d’applications dans son Data Cloud.

L’actualité de Snowflake ne ressemble pas à celle d’un éditeur. L’entreprise fondée par deux Français installés en Californie revêt très souvent sa cape d’investisseur. Outre la présence de ses dirigeants dans divers conseils d’administration de startups, Snowflake aime sceller ses partenariats en finançant des acteurs capables de compléter son offre, comme ThoughSpot, DataRobot ou Dataiku.

Suite de l'article ci-dessous

En bourse, l’éditeur a fait une entrée fracassante, mais semble avoir subi la crise de plein fouet avec un passage à vide de février à mai 2021. S’il annonce un chiffre d’affaires (228,91 millions de dollars) en hausse de 110,37 % au premier trimestre fiscal 2022 par rapport à la même période l’année dernière, le résultat net lui est en baisse de 117,01 % selon ce critère (-203,22 millions de dollars), ce malgré une croissance du nombre de clients (2 720 au Q1 2 021 contre 4 532 au Q1 2022).

Cependant, lors de son Snowflake Summit, l’éditeur ne veut pas commenter ces chiffres et rappelle qu’il est avant tout l’un des spécialistes du data warehousing dans le cloud, celui qui encourage les migrations vers cette technologie censée faciliter la fédération des données.

En novembre 2020, Snowflake avait mis en avant douze fonctionnalités en préversions publiques, privées et en développement pour son Data Cloud.

Quatre d’entre elles sont en disponibilité générale. Le service d’optimisation de recherche, la fonction de masquage dynamique des données et les Externals functions, pour appeler des services serverless sur AWS et Microsoft Azure (en préversion publique pour GCP) sont désormais utilisables en production. Les tâches serverless, internes à Snowflake, sont accessibles en préversion privée.

Favoriser le développement d’applications par-dessus Snowflake

Pendant sa conférence de presse, Snowflake a surtout mis l’accent sur la disponibilité de sa Data Marketplace, un service de partage de données rassemblant 515 data sets en provenance de plus de 160 fournisseurs. Mais l’éditeur profite de son événement pour présenter de nouvelles capacités en préversions privées ou en développement.

Bien conscient de ce foisonnement, l’éditeur tente d’organiser son approche en catégorie, des « piliers de l’innovation ». Justement, la Data Marketplace entre dans la catégorie « Connected Industries », c’est-à-dire la possibilité pour les clients d’accéder à des données externes à leur organisation. À l’avenir, Data Marketplace pourra être testé avant d’y souscrire et d’acheter directement les jeux de données. À ce titre, Snowflake promet une intégration avec ServiceNow sans en préciser la teneur.

Le pilier Global Governance rassemble les fonctionnalités d’administration des données. Si une intégration au data catalog d’Aliation est bientôt disponible, l’éditeur a présenté Classification, la préversion privée d’un outil d’identification automatique des données personnelles à partir du framework d’étiquetage, lui aussi en préversion privée. Le tout est associé à des politiques d’accès déterminées suivant le rôle des usagers. Snowflake développe également des vues anonymisées.

« Les vues anonymisées reposent sur une capacité automatisée d’obfuscation des données développée par Snowflake qui ne bloque pas les requêtes analytiques », assure Christian Kleinerman, Senior Vice-Président Produit chez Snowflake, lors de la conférence de presse. Le SVP indique au MagIT – extrait de feuille de route à l’appui – l’existence d’un mécanisme RBAC pour afficher ou non certaines lignes dans le résultat d’une requête en préversion publique.

En ce qui concerne le volet « programmation des données », Snowflake rappelle que Snowpark, une famille de librairies d’API optimisées pour écrire les requêtes dans langages Scala et Java est bientôt disponible en préversion publique ; le support de Python attendra. L’outil peut être employé pour réaliser des pipelines ETL, des transformations de données.

D’abord accessibles pour JavaScript, les fonctions définies par les utilisateurs écrites permettant d’appliquer des logiques de programmation personnalisées seront également compatibles avec Java d’ici peu. Annoncé en novembre 2020, le support des données non structurées passera « prochainement » en préversion privée. L’API SQL, conçue pour appeler les données stockées dans Snowflake depuis une application tierce, a aussi le droit à sa préversion publique.

Snowpark bénéficiera de son propre « Accelerated Program ». Il s’agit ni plus ni moins d’une offre de conseils techniques, proposée par des partenaires de l’éditeur aux clients qui ne disposeraient pas de l’expertise interne pour développer des applications s’appuyant sur Snowpark. Pour le développement d’applications sur le datawarehouse cloud, le fournisseur lance le programme « Powered by Snowflake », soutenu pour l’instant par 10 partenaires : Blackrock, Adobe, Observe, Lacework, Alpha, Seismic, Okta, Videoamp, instacart et Wix.

Faire baisser les coûts de stockage du data warehouse

L’éditeur a également présenté un nouveau tableau de bord pour superviser l’usage des ressources dans Data Cloud. À ce titre, Snowflake travaille à l’efficience du stockage, promettant une diminution de 30 % du coût de stockage, grâce à une refonte du stockage objet. Cette optimisation est une manière pour l’éditeur de faire amende honorable auprès des clients qui ont du mal à évaluer les coûts et considèrent que Snowflake est plus cher que les autres solutions du marché. Selon l’éditeur, 93 % des clients sont facturés à la consommation.

Encore une fois en préversion, il promet de « multiplier par 6 le débit des requêtes sur un seul cluster de calcul » pour les tableaux de bord interactifs et « par 8 la durée moyenne des requêtes pour ces charges de travail ». Ces derniers mois, l’entreprise a davantage poussé des mises à jour incrémentales de sécurité afin d’améliorer la gestion SAML, par exemple.

Cette foire aux préversions ne rebuterait pas les clients, au contraire si l’on en croit les propos de Christian Kleinerman.

« [Nos] équipes ont des chartes différentes, et certaines d’entre elles se concentrent entièrement sur l’optimisation de la plateforme, tandis que d’autres se penchent sur de nouvelles capacités. »
Christian KleinermanSenior VP Produit, Snowflake

« Nous innovons sur de nombreux fronts en même temps et nous accordons une grande importance au partenariat avec nos clients pour nous assurer que notre technologie répond à leurs besoins. Cela se traduit par plusieurs fonctionnalités en phase de préversion à un moment donné, mais nos clients nous disent constamment qu’ils apprécient l’opportunité de valider et de façonner les technologies sur lesquelles nous innovons », réagit-il à une question du MagIT.

Pour autant, certains utilisateurs auraient aimé que certaines fonctionnalités soient placées en priorité, notamment le support natif de Python, mais de manière générale, les annonces doivent correspondre aux exigences exprimées par les clients sur le site Gartner Peer Insight.

Le dirigeant assure que malgré les nombreux fronts figurant sur la feuille de route, les développeurs de Snowflake sont organisés pour couvrir tous ces aspects. « Les équipes ont des chartes différentes, et certaines d’entre elles se concentrent entièrement sur l’optimisation de la plateforme, tandis que d’autres se penchent sur de nouvelles capacités. Par exemple, notre équipe de Berlin se focalise sur l’optimisation des charges de travail interactives. Notre équipe installée à Bellevue [ville en périphérie de Seattle, N.D.R.] s’occupe de nos capacités d’extension. De cette façon, nous sommes en mesure de donner constamment la priorité aux deux », vante-t-il.

Snowflake et le transfert des données en Europe

S’il propose la plupart des outils nécessaires pour respecter le RGPD, Snowflake ne prend en charge que 7 régions cloud européennes, trois pour AWS, et deux chacune pour GCP et Microsoft Azure. Deux d’entre elles, « AWS Europe » et « GCP Europe West2 » dépendent de centres de données localisés à Londres. Or le Brexit a entraîné un certain flou quant à la compatibilité du droit britannique avec le droit européen au regard des transferts de données vers le Royaume-Uni. La Commission européenne a statué que cette adéquation serait de mise jusqu’au 30 juin 2021 inclus.

« Après le 1er juillet 2021, à défaut d’une décision de la Commission européenne autorisant de façon générale les transferts de données personnelles vers le Royaume-Uni, dite “décision d’adéquation”, toute communication de données personnelles vers le Royaume-Uni sera considérée comme un transfert de données vers un pays tiers », note la CNIL.

« Snowflake a des déploiements dans l’UE, ainsi qu’au Royaume-Uni. »
Christian KleinermanSenior VP Produit, Snowflake

Ce ne serait pas un problème selon Christian Kleinerman. Le dirigeant fonde sa confiance sur les nouvelles clauses contractuelles types publiées la semaine dernière par la CE. « Snowflake a des déploiements dans l’UE, ainsi qu’au Royaume-Uni. Tout transfert de données personnelles en dehors de l’UE par le biais de notre service est couvert par des clauses contractuelles standards qui répondent aux réglementations européennes existantes. La Commission européenne vient de publier une nouvelle version de ces clauses, que Snowflake intégrera dans les contrats de ses clients », affirme-t-il auprès du MagIT.

Snowflake n’est évidemment pas le seul concerné par ces réglementations, mais il est bon de rappeler que ces CCT n’empêchent pas l’application des lois extraterritoriales américaines, comme le CLOUD Act ou FISA. Elles doivent, au mieux, apporter plus de transparence aux traitements effectués par les fournisseurs et par les autorités quand elles le jugent nécessaire. Cette nouvelle mouture des CCT impliquerait beaucoup plus de travail d’audit pour les avocats et les cabinets de sécurité, selon les dires des observateurs.

Pour approfondir sur Intelligence Artificielle et Data Science

Close