Laurent - stock.adobe.com

Azure Synapse Analytics : Microsoft veut unifier analytique et machine learning dans le cloud

Le nouveau service analytique de Microsoft Azure entend fournir aux utilisateurs des fonctionnalités unifiées de BI et de machine learning dans le cloud à partir de sources variées de données en provenance de data warehouses et de data lakes.

Bien qu’il fournisse déjà l’une des plateformes BI les plus adoptées sur le marché, Microsoft a dévoilé Azure Synapse Analytics, un nouveau système qui réunit le data warehousing et l’analyse de données en un seul service cloud.

Déployé au début de la conférence annuelle Microsoft Ignite se déroulant à Orlando, Azure Synapse Analytics reste une préversion d’un service dont nous ne connaissons pas encore la date officielle de commercialisation.

Une couche de data management pour les gérer tous

Au lieu de remplacer des produits existants, Azure Synapse Analytics s’intégrera avec Power BI et Azure Machine learning. Selon l’éditeur, il s’agit de fournir une couche unifiée de data management qui favorise l’analytique et la data science. Ainsi, une entreprise adoptant la solution pourrait à la fois extraire des indicateurs pertinents des données et à la fois injecter du machine learning dans toutes ses applications.

« Je pense que nous entrons dans une nouvelle génération de l’innovation où des géants du cloud cherchent à unifier le nombre croissant de services analytiques, Big Data et IA », déclare Mike Leone, analyste senior chez Enterprise Strategy.

Les pipelines ML ne sont pas tous intégrés

Toujours selon Microsoft, Azure Synapse Analytics serait conçu pour résoudre les problématiques liées au maintien d’une infrastructure comprenant des data lakes et des data warehouses. C’est le rôle d’Azure Data Factory, un ETL qui permet en théorie de réaliser des entrepôts et des lacs à partir des données brutes.

Azure Synapse Analytics tente de rassembler les données au sein d’une seule expérience capable de supporter les usages BI et de machine learning.

Cependant, ce deuxième usage demande toujours une phase de préparation, donc d’utiliser Data Factory, puis Azure Databricks, HDInsights ou Azure Machine Learning, qui lui est intégré avec Synapse, pour enfin créer les modèles algorithmiques. Les entreprises peuvent normalement convertir les modèles existants et les appliquer directement sur les données. C’est le rôle de la fonction PREDICT.

Notons que les fonctionnalités de streaming analytics permises par Apache Spark ne sont disponibles que pour les entrepôts de données.

Azure Synapse Analytics, le nouveau SQL Data Warehouse

Pour le géant du cloud, ce service est la nouvelle évolution d’Azure SQL Data Warehouse. Pour d’autres, il s’agit de la troisième version de ce produit qui pour l’occasion a été renommé et profite d’une intégration des fonctionnalités d’Azure Data Lake Storage.

Les entreprises utilisent généralement les lacs et les entrepôts de données en fonction de leurs atouts respectifs. Les requêtes SQL sont, elles, appliquées indépendamment. Cependant, ils ne fonctionnent pas de concert, et sans un système de communication entre les deux, la prise de décision en souffre.

« Il semble qu’ils aient [les responsables du développement] amélioré SQL Data Warehouse pour supporter les tables externes [une fonction qui permet à SQL Data Warehouse de transmettre une requête locale à une base de données distante ou à un data lake N.D.L.R.] sans que les utilisateurs n’aient besoin de savoir que les données sont à distance », déclare Wayne Eckerson, président du groupe Eckerson. « Pour eux, il semble que les données distantes soient associées à la data base de SQL DW ».

Les tables SQL Spark peuvent être interrogées en utilisant le langage T-SQL inclus dans le SGBD SQL Server. Les tables externes seraient créées automatiquement. Pour cela, les fichiers sont stockés au format Apache Parquet.

Pour Mike Leone, favoriser les interactions entre les différents systèmes d’entreprise est crucial au fur et mesure que la BI évolue.

« L’idée de briser les murs analytiques est essentielle pour que les entreprises atteignent le prochain niveau de l’approche data driven », dit-il. « Alors que 60 % des sociétés utilisent un mélange de données structurées et non structurées pour leurs analyses, 45 % d’entre elles les exploitent indépendamment les unes des autres. Il faut casser les silos ».

Microsoft rattrape son retard en unifiant les requêtes SQL

Pour autant, la capacité de requêtes unifiées rendues possibles par Azure Synapse n’est pas vraiment une nouveauté. Par exemple, Presto est un moteur de requête SQL open source optimisé pour le Big Data. AWS avec Athena et Oracle dispose d’options pour traiter les données structurées et non structurées de la même manière.

« C’est une pratique répandue depuis longtemps chez d’autres éditeurs », affirme Wayne Eckerson. « SAP propose Smart Data Acess qui permet à HANA de prendre en charge les requêtes externes et donc les recherches dynamiques vers SAP IQ, Hadoop ou autre, par exemple ».

Le nouveau service rationalise toutefois les offres de data query de Microsoft. « Cela permettra aux clients de se connecter et d’analyser plus de données de manière transparente à travers le pipeline d’analytique », affirme Mike Leone.

Selon Microsoft, lorsque Azure Synapse Analytics sera finalement mis à la disposition du public, les utilisateurs seront en mesure de rassembler des données provenant de sources multiples plus rapidement qu’auparavant, et ce, dans un environnement sécurisé. L’intégration de Spark au sein de la solution y joue pour beaucoup.

Les partenaires Microsoft, quant à eux, continueront d’avoir accès à un écosystème comprenant des acteurs tels qu’Accenture, Attunity (désormais filiale de Qlik), Databricks, Informatica et Talend.

Pour approfondir sur Big Data et Data lake

Close