alex_aldo - Fotolia

Azure Purview : la « vision d’aigle » selon Microsoft pour la gouvernance

Microsoft a annoncé la disponibilité générale d’Azure Synapse Analytics, un service qui combine les capacités d’un entrepôt de données et d’un data lake, mais a également présenté un service de gouvernance : Azure Purview.

Accessible en préversion depuis le Microsoft Ignite de novembre 2019, le service Azure Synapse Analytics est enfin prêt pour la disponibilité générale dans 27 régions cloud, dont celles hébergées en France.

Microsoft promet un espace unifié pour l’ingestion, le datawarehousing et l’analytique. Il est possible d’effectuer des traitements T-SQL, SQL et NoSQL depuis la même interface. Sous le capot, les processus serverless sont séparés. Les opérations SQL (« Pool ») exploitent du stockage Azure dissocié des nœuds de calcul. Le moteur Polaris, renommé New SQL Engine, distribue les requêtes des utilisateurs depuis un nœud de contrôle.

Pour les traitements des données non structurées, Microsoft a sa propre implémentation de Spark qui adresse des ressources hébergées sur le Stockage Azure et Azure Data Lake Generation 2 (ADLS2). Sur le papier, il est également possible d’effectuer des requêtes via Spark SQL avec ce même moteur.

« Synapse s’appuie véritablement sur la fusion data warehouse/data lake », déclare Xavier Perret, Directeur Azure, chez Microsoft France. « Il s’agit de l’interface par-dessus le ou les data lake store, selon la taxonomie de vos données », ajoute-t-il.

Azure Synapse Analytics doit permettre aux business analysts, data analysts et data scientists de travailler au sein d’un même environnement.

« Dans Synapse, l’on retrouve les traitements parallèles, la gouvernance de données et l’intégration avec Power BI et Azure Machine Learning », liste Xavier Perret.

« Les clients français nous réclamaient la disponibilité en France. Synapse permet de lancer des processus de calcul SQL sans pour autant sortir de l’interface et créer des tableaux de bord Power BI. Cette vision intégrée a plu », assure le directeur Azure. « Beaucoup de nos clients SQL datawarehouse n’attendaient que Synapse pour relier cela à des capacités d’un data lake et de machine learning ».

Autant de capacités que l’on retrouve également dans Azure Databricks. Pour rappel, Databricks a popularisé le concept de « lakehouse », c’est-à-dire l’apport d’une couche ACID par-dessus un lac de données. Microsoft s’est évidemment inspiré de ce paradigme. Est-ce que cela veut dire qu’Azure Databricks est voué à disparaître ? Non, selon Xavier Perret. « Dans une intégration de services, l’on peut constater des chevauchements, mais nos clients choisissent la manière dont ils souhaitent opérer », indique-t-il. Plus précisément, la solution Databricks estampillée Azure est davantage réservée aux traitements dédiés au machine learning. La licorne a récemment consolidé ses processus SQL.

Synapse Analytics : une plateforme unifiée… pour l’écosystème Azure

Microsoft promet que cette plateforme analytique unifiée peut se connecter avec des applications et systèmes tiers.

« Vous pouvez intégrer des données externes via des API. Par exemple, un retailer peut combiner les prévisions de vente avec les données météorologiques ou la progression des cas COVID dans une zone géographiquement délimitée, ou bien charger des données SQL en provenance d’un data store sur site pour ensuite les traiter au sein de Synapse », illustre Xavier Perret.

« Je considère Synapse comme étant plus attractif pour les clients centrés sur Microsoft et ceux qui cherchent à consolider leurs activités en migrant davantage de workloads sur Azure ».
Doug HenschenVP & Principal Analyst, Constellation Research

Pour autant, Doug Henschen, analyste principal chez Constellation research remarque de son côté qu’Azure Synapse Analytics s’avère davantage calibré pour les données résidant dans l’écosystème Azure.

« Ils [les responsables de Microsoft] insistent sur le fait qu’il y a une ouverture à l’utilisation avec des solutions BI et de data science tierces, mais ils mettent l’accent sur une intégration transparente avec les capacités de Power BI et d’Azure machine learning », note-t-il. « Donc, je considère Synapse comme étant plus attractif pour les clients centrés sur Microsoft et ceux qui cherchent à consolider leurs activités en migrant davantage de workloads sur Azure ».

L’analyste salue le bon travail en proposant une plateforme unifiée de gestion et de gouvernance de données. « Le service s’appuie sur un provisionnement serverless et promet des avantages en matière de facilité de déploiement, d’évolutivité et d’administration » contrebalance Doug Henschen.

« Ces six derniers mois, nos clients ont beaucoup testé le rapport performance-prix. Les développeurs et les data scientists ne veulent pas attendre une nuit entière, voire plusieurs jours pour obtenir le résultat de leurs traitements batch. Les benchmarks sont plus que satisfaisants » vante Xavier Perret.

Si le directeur Azure chez Microsoft France ne divulgue pas l’identité des entreprises ayant essayé le service en France, il évoque des usages dans la grande distribution, par exemple.

Purview : Azure se dote d’une brique de gouvernance de données

Microsoft a également présenté Azure Purview, une solution de gestion et de gouvernance de données, accessible en préversion gratuite. Elle offre des capacités de data lineage, de catalogage et de recherche pour cartographier l’ensemble des données des organisations, qu’elles soient dans le cloud ou on premise, au sein des espaces de stockage Microsoft ou non, et même depuis des applications SaaS via l’API d’Apache Atlas. Purview comprend la gestion des rôles et des accès grâce à l’intégration avec Azure AD.

Le service managé recourt à une technologie de découverte automatique des données structurées, semi-structurées et non structurées, qui identifie leurs liens et les classifie pour mieux les retrouver. Microsoft y associe un moteur sémantique afin de chercher les données par mot-clé, par type (Int, Nvarchar, date, etc.) et par format (JSON, Parquet, CSV, PDF, etc.).

Ces deux types dépendent de glossaires métiers ou techniques que l’on peut manuellement créer, mais Azure propose plusieurs templates précomplétés. Plus important, Purview doit faciliter l’identification des informations sensibles à masquer en « crawlant » le nom des colonnes présentes dans les tables (par exemple, les ID des clients ou des numéros de cartes bancaires).

« Azure Purview est une avancée importante pour Microsoft concernant la gestion des métadonnées et de la gouvernance. »
Doug HenschenVP & Principal Analyst, Constellation Research

« Purview est conçu pour les directions data, les chief data officer. L’outil leur permet d’agréger une vue unique de l’ensemble des lieux de stockage afin d’obtenir une vision holistique de leur patrimoine de données pour mieux les mettre à disposition [des collaborateurs] », déclare Xavier Perret. Pour cela, Purview intègre des tableaux de bord Power BI pour analyser visuellement ces classements et offrir une « vision d’aigle » sur les données.

Mais les métiers de la data « qui ne savent pas où sont les données dans l’entreprise » peuvent également explorer les informations pour des processus BI ou analytique.

« Azure Purview est une avancée importante pour Microsoft concernant la gestion des métadonnées et de la gouvernance », estime Doug Henschen. « Les clients étaient auparavant mal desservis par Azure Data Catalog qui était limitée à la découverte et la compréhension des données ».

Microsoft se positionne ainsi sur un marché largement concurrentiel occupé par des acteurs tels qu’Informatica, Aliation, Talend, Hitachi Vantara, ou encore les startups Zeenea et Datagalaxy. Mais là encore, Purview risque d’avoir un plus grand impact auprès des organisations considérant Azure comme leur fournisseur cloud principal.

Pour approfondir sur Intelligence Artificielle et Data Science

Close