Fabric : face à Snowflake et Databricks, Microsoft met les bouchées doubles

Dans le cadre de la FabCon de Vienne, en Autriche, Microsoft a présenté les avancées de Fabric, sa plateforme concurrente de Snowflake et Databricks. Le fournisseur rattrape son retard à vitesse grand V, mais doit encore convaincre les analystes en matière d’IA.

Né des cendres encore chaudes de SQL Data Warehouse, Fabric représente la volonté de Microsoft d’unifier ses briques lakehouses, des fonctionnalités analytiques (Azure Synapse Analytics), d’ETL/ELT (Data Factory), de data visualization/BI (PowerBI) et – c’est inévitable – d’IA. Un temps roi sur le marché de la gestion de données en cloud, Microsoft, Google Cloud et AWS ont pris la même décision d’harmonisation. Elle a été impulsée par deux coopétiteurs, Snowflake et Databricks. Ceux-là ont su attiré les entreprises vers une plateforme tout-en-un.

Puisque c’est le socle de PowerBI, Microsoft peut se targuer d’avoir convaincu plus de 25 000 clients en à peine deux ans sur cette plateforme refondue. Le moins que l’on puisse dire, c’est que les ingénieurs de Microsoft ne chôment pas. La mise à jour de septembre inclut plus de 100 fonctionnalités, en disponibilité générale ou en préversion.

Le cœur de Fabric n’est autre que OneLake. Il s’agit d’un lac de données logique bâti par-dessus Azure Data Lake Storage Gen 2 (ADLS). Son architecture repose sur Delta Lake, la technologie open source développée par Databricks. Il permet de stocker des données structurées et non structurées sous le même format de données : Delta Parquet.

De la sorte, OneLake peut ingérer et fédérer des données en provenance d’un grand nombre de bases de données, applications et data warehouse cloud tiers. Même lorsque ils ne sont pas hébergés sur Microsoft Azure, même sur site.

Faire venir à Azure les données issues de BigQuery et des bases Oracle

La promesse de Microsoft tient sur une fonctionnalité clé : le mirroring. Celle-ci automatise la réplication de données, de métadonnées (ou les deux) d’une plateforme tierce vers OneLake.

Lors de son événement viennois, Microsoft a annoncé la disponibilité générale du mirroring de données en provenance d’instances Azure SQL managées. Mais ce qui a retenu l’attention des entreprises et des analystes, c’est la préversion de cette fonctionnalité pour BigQuery et les bases de données Oracle (on-premise, OCI, Exadata). Fabric permettait déjà le mirroring depuis Azure Databricks et Snowflake.

Avec Snowflake, cette relation est bidirectionnelle. À travers un connecteur, il est possible de fusionner des données modifiées depuis et vers le « Data Cloud », en maintenant la hiérarchie des rôles. Ce mécanisme de change data capture fonctionne avec les tables Azure SQL, SQL Server, ou Fabric. D’autres partenariats sont en cours avec Neo4j, Statsig (OpenAI) et ESRI.

Microsoft annonce également la disponibilité générale de raccourcis OneLake pour Azure Blob Storage. Cette fonctionnalité permet de créer des objets qui pointent vers des espaces de stockage, dont Azure Blob Storage, mais aussi Amazon S3.

Cette notion de raccourcis sera codifiée pour les transformations de données. En préversion publique, une instance Fabric Spark (propulsée par Apache Spark donc) permet de convertir des fichiers JSON et Parquet dans le format de table Delta.

Les porte-parole de Microsoft, eux, voudraient que les entreprises retiennent l’arrivée de Maps, de Graph, d’Anomaly Detector, en sus d’un serveur MCP. 

Des fonctionnalités d’analytiques avancées

Maps est une capacité de visualisation 2D ou 3D à partir de données géospatiales encodées au format GeoJSON ou PMTiles. Différents outils permettent d’éditer la carte afin de créer des visualisations qui évoluent régulièrement, selon si les données proviennent d’un lac ou d’un dépôt « temps réel » (EventHouse). Snowflake et AWS offraient déjà une application similaire, tandis que Databrick a lancé la préversion publique des fonctions géospatiales.

Graph, qui sera partiellement accessible à partir du 1er octobre, est lui aussi un outil de visualisation de données. Ce service s’appuie sur la même technologie que LinkedIn (Liquid) pour analyser des données semi-structurées. Comme avec Maps, Microsoft propose un ensemble d’outils pour construire le modèle de relation et explorer les données associées. La fonctionnalité s’appuie sur des réseaux de neurones pour découvrir la profondeur des relations. Ici, cela ressemble davantage à graph Data Science de Neo4j qui rejoindra prochainement la galaxie Fabric.

Le fournisseur veut aussi prouver sa capacité à traiter des données en quasi-temps réel, issues de sources variées. Anomaly Detector, en préversion, est une fonction AutoML infuse dans EventHouse. Il s’agit d’analyser des données de séries chronologiques en provenance de capteurs IoT et tout autre système en temps réel afin d’y détecter des comportements anormaux. Des seuils d’alerte ou des déclenchements de flux de travail peuvent être configurés en cas de problème. D’ailleurs, le configurateur d’alertes, Activator, est en train d’être mis à jour pour prendre en charge jusqu’à 10 000 événements par seconde, soit dix fois plus que ses capacités actuelles.

Ces seuils peuvent, entre autres, servir à analyser la santé d’applications déployées sur Azure. Azure Monitor Logs s’intègre avec Eventstream, l’un des pendants événementiels de Fabric.  

Des efforts à faire en matière d’IA, juge un analyste

« Ces fonctionnalités améliorent la capacité de Fabric à unifier et enrichir les données afin de soutenir le développement d’agents IA qui comprennent les opérations des métiers », envisage William McKnight, président de McKnight Consulting group, auprès de SearchDataManagement, une publication sœur du MagIT.

Cependant, l’analyste considère que cela ne suffit pas encore pour détrôner Snowflake et Databricks.

« Bien que Microsoft investisse massivement dans l’IA avec Fabric, il se peut qu’elle n’offre pas encore le même niveau de sophistication ou d’intégration dans les workflows analytiques que ses concurrents », suggère-t-il. « Databricks dispose de capacités approfondies en matière d’IA/ML, basées sur une architecture lakehouse ouverte, qui intègrent directement l’IA dans les workflows analytiques. Les capacités d’IA de Snowflake arrivent à maturité et offrent une solution pour les cas d’usage les plus simples ».

DataOps, « data as code » : Microsoft équipe les populations techniques

Cela ne devrait pas tarder. En réalité, Microsoft consacre sa mise à jour de septembre aux développeurs, aux ingénieurs de données et aux data scientists.

En préversion, le serveur MCP (Model Context Protocol) permet d’interagir avec Fabric depuis VS Code et GitHub Copilot. Il s’agit de faciliter la génération de requêtes SQL et Python, de pipelines d’ingestion de données ou encore d’obtenir des explications sur les schémas de données.

Dans un même temps, le moteur d’exécution de requêtes Dataflow Gen2 a été amélioré pour mieux prendre en charge les traitements parallèles.

Pour les ingénieurs de données, Microsoft a présenté la disponibilité des User Data Functions (UDF), qui permettent d’incorporer des logiques métiers ou des transformations spécifiques à travers des fonctions Python et de la librairie PyPI. Celles-ci peuvent être réutilisées dans différents projets de données d’une entreprise, voire exposer à des applications externes via des API REST.

Prise en charge des DataFrames Panda (à l’aide d’Apache Arrow), intégrations des UDF dans des notebooks écrits en Python, PySpark, Scala et R, création de vues matérialisées plus fines et rafraîchies plus régulièrement, combinaison de Python et de requêtes T-SQL dans les notebooks, commandes pour des exécutions parallélisées et planification des opérations CRUD… Microsoft a mis les bouchées doubles pour rendre sa plateforme accessible à un plus grand nombre de profils techniques.

Pourquoi Python ? La réponse est simple. Selon le sondage annuel de Stack OverFlow, Python est le quatrième langage de programmation le plus populaire, derrière SQL. Les néophytes commencent généralement par se former sur ce langage adapté aux transformations de données.

En outre, pour orchestrer les pipelines de données, Microsoft propose sa propre version du célèbre Apache Airflow. Le fournisseur l’intègre désormais avec GitHub et Azure DevOps. Cela permet d’appliquer une approche CI/CD sur la configuration des pipelines. De la même manière, il est possible d’automatiser les jobs de copie de données, tandis que les flux de transformation ont été simplifiés.

Le lien avec des dépôts Git sert aussi à contrôler et siloter le comportement des assistants IA Data Agents paramétrés par des développeurs, ou encore à déployer des rapports PowerBI.  

Gouvernance de données : un rattrapage nécessaire

Plus important pour les CDO et les Data Stewards, certaines fonctionnalités de gouvernance de Fabric sont enfin en disponibilité générale. C’est le cas de l’onglet dédié dans OneLake Catalog. Un assistant Copilot infusé aide à mieux comprendre le patrimoine de données, dixit Microsoft. Les API permettant de créer des accès à des domaines et des sous-domaines de données sont finalement disponibles. Comme promis, les mécanismes de protection à partir de règles de Purview entrent aussi en jeu, tout comme les labels de sensibilité de données et les procédures en cas de pertes d’information. À ce titre, la restauration à un point T dispose d’une fenêtre de rétention de 35 jours, et non plus de 7.

En revanche, certaines fonctionnalités de sécurité, dont un tableau de bord de supervision des rôles et des accès, sont encore en préversion.

Pour approfondir sur Datawarehouse