Quand Snowflake évoque sa plateforme, il présente quatre couches : les fondations de données, la collaboration, l’IA et les applications.

Si l’éditeur met beaucoup en avant ses progrès dans l’IA générative, il doit encore consolider ses couches basses.

Outre le projet d’ouvrir l’accès à d’autres moteurs de requêtes pour cibler des tables Apache Iceberg, il annonce enfin la disponibilité générale après deux ans de préversion. Près de 300 clients n’ont pas attendu cette disponibilité générale pour adopter ce format ouvert permettant une portabilité des données plus aisée.

Les tables Iceberg peuvent être mises au cœur de plusieurs charges de travail, dont les pipelines Snowpark, Streams, ou encore être incorporés dans des tables dynamiques, une fonction qui entrera prochainement en préversion publique.

Quant aux traitements analytiques, l’éditeur renforce sa prise en charge des données time series avec la disponibilité générale des jointures ASOF. C’est un moyen de rapprocher une paire d’enregistrements en provenance de deux tables suivant leur proximité temporelle. Il s’agit de simplifier le rapprochement d’enregistrements, qui réclame habituellement d’exécuter des sous-requêtes. De même, les fonctionnalités time series « RANGE BETWEEN » (bientôt en préversion publique) et Higher-order Functions (en disponibilité générale), doivent étoffer les analyses « sans recourir à des requêtes complexes ou à des UDFs personnalisées ».

Toujours du côté des formats ouverts, l’éditeur assure qu’il accélère « jusqu’à 25 % » les injections de fichiers JSON dans sa plateforme et « jusqu’à 50 % » le chargement des fichiers Parquet, tout en préparant de nouveaux connecteurs pour PostgreSQL et MySQL, en préversion publique bientôt, et pour Google Analytics, en disponibilité générale.

Horizon : une consolidation de la gouvernance en cours

Tout cela, selon Snowflake, est interconnecté à Horizon, sa couche de gouvernance. En sus d’ajouts consacrés à sa couche d’authentification et à la protection du réseau de son système (des liens privés seront prochainement disponibles en préversion privée), l’éditeur a dernièrement présenté des politiques de gestion des agrégations et des projections.

Les politiques d’agrégation doivent obliger les analystes à requêter les données sous forme d’agrégats et non plus ligne par ligne. Il est d’ailleurs possible de décider d’un minima de lignes au sein d’une table ou d’une vue autorisée avant de pouvoir exécuter une requête.

Les règles de projection de colonne doivent, elles, empêcher certains utilisateurs de projeter une colonne à partir d’une requête SELECT sur une vue ou une table.

En préversion privée cette fois-ci, Snowflake propose un système de classification automatique des données sensibles et prépare la préversion privée de la propagation automatique de l’étiquetage de données.

Dans cette lignée, Universal Search entre en disponibilité générale. C’est un moteur de recherche qui doit permettre de retrouver les données, les documents, les applications et les modèles plus simplement. La technologie est directement dérivée de Neeva, une entreprise rachetée par Snowflake il y a un an et dont le fondateur est devenu le CEO de son acquéreur. Certaines des fonctions de recherche basée sur des tokens, de la recherche plein texte (bientôt en préversion publique) et l’indexation des données géospatiale (en disponibilité générale) doivent par ailleurs permettre d’améliorer les capacités de recherche dans les requêtes exécutées sur la plateforme analytique.

Comme promis, l’éditeur est en train de mettre en place des fonctions d’automatisation de la gouvernance, à commencer par Object Insight Interface qui doit permet de communiquer des informations supplémentaires sur la popularité d’un objet (en fréquence d’accès), sa qualité et ses dépendances. Plus tard cette année, l’éditeur prévoit un moyen de générer automatiquement les descriptions des tables et des vues.

« Si Snowflake est bien connu pour sa façon d’abstraire la complexité et de faciliter les choses, vous nous verrez tirer parti de l’opportunité que représente l’IA pour passer au niveau supérieur », avance Christian Kleinerman, vice-président directeur du produit chez Snowflake, lors d’une conférence de presse.

À noter que le concurrent de Databricks prévoit de reproduire sa logique de marketplace pour des usages internes. Il s’agit de proposer un dépôt centralisé des produits de données accessibles par les métiers suivant leur fonction. « C’est en préversion privée et nous allons faire en sorte que cette marketplace interne soit disponible le plus rapidement possible », promet Christian Kleinerman.

Pour des usages externes ou dans des contextes sensibles, les data clean rooms entrent en disponibilité générale dans certaines régions. Ces environnements permettent de déployer des algorithmes depuis une interface utilisateur que Snowflake présente comme simple à prendre en main. Il faudra toutefois attendre pour bénéficier des configurations de règles de confidentialité granulaires, notamment pour empêcher la réidentification des données, tandis que les politiques d’agrégations spécifiques aux entités (nom d’une personne, entreprise, clients, etc.) peuvent être appliquées dans cet environnement. En parallèle, le Trust Center, un espace pour gérer les politiques et observer les problèmes de sécurité - dont la mauvaise application de la MFA - entre en disponibilité générale.

Ces mesures en matière de sécurité sont complémentaires de l’extension de la visualisation de la traçabilité des modèles d’IA, en préversion privée, et des vues, « bientôt en préversion publique ». En outre, le service de mesure de la qualité des données, Data Quality Monitoring, entrera « prochainement » en disponibilité générale.