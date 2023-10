Le géant du cloud a dévoilé cette solution pour la première fois lors de re:Invent, sa conférence annuelle des utilisateurs, en novembre 2022 ; il l’a mis en préversion publique en mars 2023 et l’a rendue accessible à tous le 4 octobre dernier.

L’objectif d’Amazon DataZone est de fournir un environnement unique, dans lequel les data scientists, les ingénieurs, développeurs ainsi que les analystes et autres consommateurs de données peuvent accéder et partager les données de leur entreprise de manière gouvernée afin de prendre collectivement des décisions qui mènent à des actions, selon AWS.

Récemment, AWS a consacré ses annonces sur l’IA générative, tout comme ses concurrents et partenaires.

En juillet, le géant du cloud a mis en avant sa plateforme Bedrock, qui référence différents modèles de langage disponibles par API. Le même mois, AWS a dévoilé deux nouveaux outils d’IA générative dédiés à QuickSight, sa suite BI.

Amazon DataZone, quant à lui, est présenté comme un service de gestion de données traditionnel basé sur le cloud, conçu pour aider les clients à gouverner et à opérationnaliser les données à grande échelle. AWS le met initialement à la disposition de tous les clients dans 11 de ses régions, dont trois régions américaines et trois régions européennes. Ceux-ci peuvent commencer par un essai gratuit qui inclut 50 usagers pendant trois mois.

La tarification débute par un abonnement mensuel de 9 dollars par utilisateur pour les 500 premiers utilisateurs, de 8,10 dollars par usager pour les 500 suivants et de 7,20 dollars par mois par usager au-delà de 1 000 comptes. Chaque abonnement mensuel – il n’y a pas de réduction pour les engagements à long terme – comprend 20 Mo de stockage de métadonnées, 4 000 requêtes et 0,2 unité de calcul.

Un outil de gouvernance, de catalogage et d’accès aux données en libre-service

Amazon DataZone propose quatre fonctionnalités principales :

Un portail de données en dehors de la console de gestion AWS, sous la forme d’une application web où les usagers authentifiés peuvent trouver, inventorier et travailler avec des données en libre-service.

Un catalogue de données permettant aux clients de caractériser les données dans l’ensemble de leur organisation, en vue de faciliter la recherche de données pouvant être opérationnalisées pour former des modèles, alimenter des tableaux de bord et éclairer les décisions.

Un environnement dans lequel les utilisateurs peuvent créer des groupes de personnes, des ressources de données et des outils d’analyse pour une analyse et une prise de décision collaboratives.

Un contrôle d’accès et d’autres mesures de gouvernance qui définissent les paramètres permettant de déterminer qui peut accéder à certaines données et quels employés sont propriétaires des données qu’ils peuvent analyser à la demande d’autres personnes.

Les plus observateurs l’auront remarqué : le service n’est pas vendu à l’heure ni en fonction de grandes capacités de stockage. En réalité, la plateforme de gouvernance de données s’intègre nativement avec les services AWS, dont Amazon RedShift, Athena, QuickSight, Glue et Lake Formation. Dans un langage plus technique, il s’agit de lister des sources et des produits de données qui sont accessibles à des consommateurs après une phase d’autorisation pour analyse depuis RedShift ou pour visualisation depuis QuickSight. Il est prévu qu’elle s’ouvre vers l’extérieur. Pour l’instant, il est possible d’importer des données et des métadonnées depuis des sources on premise ou tierces vers des bucket Amazon S3, vers RedShift ou Athena.

Selon Stephen Catanzano, analyste chez Enterprise Strategy Group, une filiale de Techtarget, également propriétaire du MagIT, Amazon DataZone est un ajout important à la plateforme AWS, car il promet la collaboration de différents rôles autour de données réutilisables.

« Il s’agit d’une amélioration significative qui permet aux utilisateurs de partager des ressources de données au sein de DataZone [afin qu’ils puissent] être plus efficaces », déclare-t-il. « Un utilisateur peut créer des données [et] les ajouter à un catalogue, et d’autres peuvent ensuite les utiliser. Le catalogage fait partie d’un vaste mouvement visant à favoriser la réutilisation des données plutôt que leur recréation ».

En outre, le service devrait rendre les travailleurs du secteur des données plus efficaces en créant un environnement dans lequel les données sont faciles d’accès et la qualité est renforcée par des mesures de gouvernance, poursuit l’analyste.

« Cela devrait améliorer la qualité des données et réduire le temps nécessaire entre leur production et leur utilisation », anticipe-t-il. « Tout ce qui concerne les données évolue vers le temps réel ou presque. Si quelqu’un constate une demande inattendue pour une information, DataZone lui permet de lancer une campagne et de la diffuser rapidement. C’est très précieux. Cela doit éliminer les étapes manuelles et augmenter la réutilisation des données et la collaboration ».

Matt Aslett, analyste chez Ventana Research, souligne également l’importance d’Amazon DataZone pour les clients d’AWS. Il le considère comme l’un des produits les plus importants présentés par le géant technologique à l’hiver dernier.

Plus précisément, le service pourrait fournir certaines des fonctionnalités nécessaires à la mise en œuvre d’une approche Data Mesh.

Une stratégie Data Mesh doit rendre possible la décentralisation d’une partie de la gouvernance des données par des responsables au sein d’une unité commerciale ou par des experts métiers.

En cela, l’accès à un catalogue de données qui liste les actifs de l’entreprise est essentiel, selon Matt Aslett. « C’est un outil indispensable pour la bonne gouvernance des données ».

Une enquête de Ventana Research a montré que les trois quarts des entreprises dénombrant plus de 100 utilisateurs de catalogues de données ont confiance dans la capacité de leur organisation à administrer et à gérer les données dans l’ensemble de l’entreprise. À l’inverse, un peu plus de la moitié des organisations comptant 100 utilisateurs de catalogues de données ou moins affichent le même niveau de confiance.

AWS n’est pas le seul à vouloir répondre à la mise en place d’une stratégie Data Mesh. Snowflake, Confluent, Dremio, Collibra sont quelques-uns des acteurs qui se positionnent sur cette tendance qui devient de plus en plus une réalité au sein des organisations.