Romolo Tavani - stock.adobe.com

Fabric : Microsoft tient la dragée haute à Snowflake et Databricks

Un an après sa disponibilité générale, Microsoft Fabric serait déjà plus populaire que Snowflake ou Databricks en nombre de clients. Dans le détail, bon nombre de fonctionnalités déjà bien implantées chez les deux coopétiteurs arrivent à peine sur la plateforme de traitements BI, ML et IA estampillée Azure.

En matière de traitement de données, Microsoft mise sur Fabric, une plateforme sous forme de patchwork lancé en disponibilité générale il y a un an. Cette formule aurait déjà trouvé plus de 17 000 preneurs (16 000 payants), dont 70 % des entreprises du Fortune 500. Plus que Snowflake (environ 10 600 clients), plus que Databricks (environ 12 000 clients). En 16 semaines, le volume de données de Fabric aurait doublé, mais Microsoft s’inclut dans ce décompte (450 Po à travers sa filiale Ideas).

Une rapide montée en régime face à Snowflake et Databricks

« Ce n’est pas un bundle de produits », assure Arun Ulagaratchagan, vice-président corporate, Azure Data, chez Microsoft, lors d’une session de la conférence annuelle Ignite 2024 consacrée à Fabric. « Cela nous a pris des années pour qu’ils fonctionnent dans une seule plateforme ».

Et Microsoft de mettre en lumière sur ses sites Web le commentaire de Philippe Baumlin, DSI de Chanel. Il est l’un des acteurs à avoir choisi Fabric pour propulser la plateforme analytique et de partage de données du groupe de luxe français. « Nous avons décidé de faire de Microsoft Fabric la fondation de cette plateforme, en raison de sa capacité à supporter la mise en œuvre d’une approche Data Mesh », affirme-t-il. « Cela offre à la fois un service unifié et une approche décentralisée ».

S’il semble évident que Microsoft comptabilise des clients de ses offres précédentes, sans oublier le fait que Fabric est étroitement lié à Power BI, sa stratégie d’unification des solutions d’entreposage, d’analytiques, de gouvernance semble plaire.  

Précisons que Microsoft s’est principalement aligné sur Snowflake et (surtout) Databricks. En effet, OneLake, aussi appelé Microsoft Fabric Lake doit accueillir l’ensemble des données, mais aussi permettre de virtualiser celles hébergées sur AWS, GCP, des data centers on premise, ou tout service de stockage objet compatible S3.

« De nombreux environnements SQL contiennent des données et des applications qui restent sur site. Contrairement à ses principaux concurrents, Microsoft Fabric aide à gérer les éléments on premise ».
Kevin PetrieAnalyste, BARC US

Ce service s’appuie sur Azure Data Lake Storage Gen 2 (ADLS) et sur la prise en charge du format de fichiers orienté colonnes Apache Parquet. Dans ce contexte, Parquet est encapsulé dans le format de tables open source Delta, porté par Databricks (la prise en charge d’Apache Iceberg est possible, mais un peu plus complexe).

« Microsoft capitalise sur l’un de ses principaux avantages par rapport à Databricks, Snowflake et aux autres hyperscalers, à savoir la prise en charge de longue date des environnements hybrides », déclare Kevin Petrie, analyste chez BARC US. « De nombreux environnements SQL contiennent des données et des applications qui restent sur site. Contrairement à ses principaux concurrents, Microsoft Fabric aide à gérer les éléments on premise ».

Plus précisément, Snowflake et Databricks peuvent se connecter aux sources de données sur site, mais privilégieront la réplication plutôt que la virtualisation. Microsoft prend en charge les deux modalités justement parce qu’il doit faire avec une grosse base installée sur site.

Microsoft Fabric dispose ensuite d’espaces de travail consacrés à l’ingénierie de données (Data Factory, Data Engineering), la data science, l’analyse de temps en presque temps réel (Real Time Intelligence) via Kafka, Power BI et d’autres. Suivant la charge de travail, les données peuvent être interrogées ou transformées en s’appuyant sur Apache Spark, Apache Kafka, T-SQL (une variante propriétaire du fameux langage de requêtes) et les services analytiques de Power BI.

À noter que le géant du cloud a annoncé la disponibilité générale d’une fonction cross tenant, qui semble correspondre aux fonctionnalités recherchées par Chanel. Celle-ci permet de partager des données entre deux tenants OneLake en lecture seule, dans une logique producteur/consommateur.

Microsoft Fabric Databases (Autonomous était déjà pris)

Il a surtout mis en avant Fabric Databases, disponible en préversion. À la manière dont le groupe le présente, il s’agit d’un équivalent d’Oracle Autonomous Database, mais pour SQL Server.

Il suffit de consulter la liste des fonctionnalités – autoscaling, indexage automatique, optimisation des requêtes, reprise après sinistre automatisé, réplication automatique des données dans OneLake – pour se rendre compte que la firme de Redmond fait siens les arguments du groupe de Larry Ellison. Il y a tout de même des fonctionnalités spécifiques à la sphère Microsoft, en premier lieu l’intégration à VS Code et à GitHub, ainsi que la génération automatique de requêtes T-SQL avec Copilot. IA générative oblige, Fabric Databases prend nativement en charge native des données vectorielles et s’intègre avec les services rassemblés dans Azure AI Foundry.

Prochainement, le fournisseur prévoit d’introduire des fonctions d’IA accessibles à travers les notebooks Fabric. Il s’agit d’appeler des services de résumé, de traduction, d’analyse de sentiments, etc., s’appuyant sur des LLM ou des modèles NLP via des API.

Le tout serait idéal pour les développeurs qui cherchent à mettre sur pied des applications d’IA. D’ailleurs, Microsoft a annoncé la disponibilité générale d’une API GraphQL pour créer des applications accédant à différentes sources de données en s’appuyant sur un seul point de terminaison.  

Et, comme son concurrent Oracle, Microsoft dit maintenant unifier les données transactionnelles et analytiques. Avec Fabric Databases, Microsoft débute avec la prise en charge de base de données SQL, mais imagine faire de même avec d’autres technologies de SGBD, sans préciser lesquelles.

Ingestion, réplication, CDC : Microsoft renforce la plomberie de Fabric

Par ailleurs, le groupe permet de mettre en miroir en quasi-temps réel les données en provenance d’Azure SQL et Snowflake. Ce mécanisme permet de répliquer les opérations CRUDL (create, read, update, delete, list) effectuées sur les données depuis des tables ou des collections de documents du SGBD source, vers des tables Delta rangés dans OneLake. Azure SQL Managed Instance et Azure CosmosDB et Databricks prennent également en charge cette fonctionnalité en préversion. Sur sa feuille de route, le géant du cloud a déjà prévu de faire la même chose avec SQL Server, SQL Server 2025, Azure PostgreSQL et Oracle Database. Le géant du cloud distingue le Mirroring de l’Open Mirroring (en préversion publique) : ici, il place son intégration avec MongoDB Atlas sur Azure, Oracle Golden Gate, Striim et prochainement Datastax. Pour l’instant, le stockage des réplications est gratuit dans OneLake.

Beaucoup de fonctionnalités de Microsoft Fabric – une quarantaine environ selon la documentation du fournisseur – sont encore en préversion ou en accès anticipé.

Ce n’est pas le cas de Real-Time Intelligence, entrée en disponibilité générale cette semaine. Celle-ci s’appuie justement sur Eventstream afin d’ingérer, de traiter des données puis de les visualiser dans Power BI ou de s’en servir comme point d’entrée du déclenchement d’actions avec Activator. Ces actions peuvent être le déclenchement d’une alerte, l’exécution d’un job Fabric (un pipeline spécifique), ou d’un flux de travail Power Automate.

En ce sens, Microsoft a annoncé la disponibilité générale de connecteurs sources Eventstream consacrés au change data capture. La technologie prend en charge Confluent Cloud, Amazon Kinesis, Google Pub/Sub, Amazon MSK, Azure SQL Database, Managed Instance, SQL Server on VM, PostgreSQL, Cosmos DB et MySQL.

Sous le capot, Real-Time Intelligence est une version managée d’Apache Kafka, à manipuler avec le DSL KQL ou des sets de requêtes T-SQL.

« L’ajout d’une option [transactionnelle] et du support pour la capture et la réplication des changements de données positionne Fabric comme une plateforme pour les applications et les analyses basées sur les données. »
Doug HenschenAnalyste, Constellation Research

« Des centaines de clients ont testé Real-Time Intelligence au cours de la bêta », assure Arun Ulagaratchagan.

« L’ajout d’une option [transactionnelle] et du support pour la capture et la réplication des changements de données positionne Fabric comme une plateforme à la fois pour les applications et les analyses basées sur les données », constate Doug Henschen, analyste chez Constellation Research.

Et de préciser que Microsoft n’est pas le premier hyperscaler à avoir pris cette voie. « Ces fonctionnalités s’apparentent aux liens qu’AWS a créés entre ses services de bases de données, comme Amazon Aurora et Amazon Redshift », ajoute-t-il.

Microsoft développe également des solutions spécifiques à des industries et des cas d’usage. Il a annoncé la disponibilité générale de Sustainability (rapports ESG), Healthcare, et Retail en préversion. Un SDK doit permettre aux partenaires technologiques de Microsoft de développer d’autres applications ou d’intégrer des outils avec Microsoft Fabric. La liste est déjà très longue, mais l’on peut déjà noter l’intégration en préversion des modules d’analytique spatiale en provenance d’ArcGIS, la PaaS d’Esri.

OneLake Catalog : Purview… mais pour OneLake

Tout cela serait inutile sans une couche de gouvernance et de sécurité digne de ce nom. Là encore, les équipes de Microsoft mènent en parallèle l’ajout d’une grande quantité de fonctionnalités. L’une d’entre elles, OneLake Catalog, vient d’entrer en disponibilité générale. « C’est une évolution de OneLake Data Hub », décrit une porte-parole du groupe. Il s’agit de permettre à tous les utilisateurs de la plateforme de découvrir les données, les flux, les indicateurs et les projets d’IA, de les gérer et de les gouverner depuis une seule interface. L’outil permet également d’obtenir un lignage des données et des actifs indexés.

En préversion, la fonctionnalité gouvernance fournit un tableau de bord concernant l’ensemble des usages des données, de l’état des lieux de l’étiquetage des données et des niveaux de conformité de chaque actif répertorié. Ce même OneLake Catalog sera accessible depuis l’interface de Microsoft Teams. Une fonctionnalité saluée par les analystes, mais ils précisent que ce catalogue ne couvre pas l’ensemble des actifs de l’écosystème Microsoft, seulement ceux raccordés à OneLake. Pour cela, il faut s’appuyer sur Purview, un produit lancé il y a quatre ans, entré en disponibilité générale en septembre 2024.

Une capture d'écran des fonctions de sécurité et de gouvernance intégrées à Fabric.
Une capture d'écran des fonctions de sécurité et de gouvernance intégrées à Fabric.

N’oublions pas de mentionner des dizaines de fonctionnalités de sécurisation des données, en transit et au repos (voir la capture d’écran ci-dessus), disponibles ou en cours de préparation.  

Cette approche visant à égaler Snowflake et Databricks, en reproduisant pratiquement point pour point leur feuille de route, semble convaincre les clients de Microsoft. Toutefois, la relative indépendance de ces deux éditeurs vis-à-vis des fournisseurs cloud les rendent pertinent aux yeux de bon nombre d’entreprises, tandis que certains acteurs plus confidentiels, mais influents ne rechignent pas à déployer leur plateforme sur site, dont Dremio et Starburst.

Pour approfondir sur Big Data et Data lake