Sergey Bogomyako - stock.adobe.c

Avec Fabric, Microsoft tente d’égaler Snowflake et Databricks

La suite, qui était en préversion depuis mai, réunit Power BI, Azure Synapse Analytics et Data Factory dans un environnement intégré, pour mieux permettre la gestion et l’analyse des données, y compris le développement de modèles d’IA.

Lors de la présentation de Fabric, le PDG de Microsoft, Satya Nadella, a qualifié ce service SaaS comme étant le plus important depuis la sortie de SQL Server en 1989.

David Menninger, analyste chez Ventana Research, partage cet avis. « Si l’on mesure la taille du produit en fonction de son étendue et de sa profondeur, il faut admettre qu’il s’agit du plus grand produit de données de Microsoft depuis SQL Server », confirme-t-il.

Microsoft a révélé la disponibilité générale de Fabric la semaine dernière lors d’Ignite, sa conférence annuelle à Seattle. Une rencontre au cours de laquelle l’éditeur a lancé des dizaines de nouvelles mises à jour, fonctionnalités et produits, pour la plupart soutenus par l’IA générative, une tendance suivie par la majorité des éditeurs.

Microsoft Fabric est un environnement dédié à l’intégration de données, à la gestion des données et à l’analyse, regroupant un ensemble de capacités permettant aux clients de modéliser et d’analyser les données de multiples façons.

Fabric : Microsoft unifie Power BI, Synapse Analytics et Data Factory

La suite comprend Power BI, le fameux outil BI bien connu des entreprises. En outre, Fabric inclut Azure Synapse Analytics, un service cloud dédié à l’intégration de données, à l’entreposage de données et à l’analyse de données massives. Synapse Analytics se nommait auparavant SQL Data Warehouse. Enfin, Fabric intègre Azure Data Factory, un service d’extraction, de transformation et de chargement de données (ETL) permettant aux clients d’intégrer et de transformer des données à grande échelle.

En plus des trois outils autrefois séparés, Fabric comprend un lac de données « multi-cloud », appelé OneLake, qui renferme des espaces de travail et nommé Lakehouse. « Un lakehouse est un ensemble de fichiers, de dossiers et de tables qui représentent une base de données sur un lac de données », précise la documentation de Microsoft. En clair, il s’agit d’un warehouse par-dessus un data lake.

OneLake est doté de raccourcis vers des sources de données Azure Data Lake Storage Gen2, y compris Azure Databricks, mais également Dataverse (un équivalent de Fabric pour la suite Power Platform) et Amazon S3. D’autres raccourcis sont prévus, mais pour l’heure, le seul lien externe au monde Microsoft, vers S3, n’est disponible qu’en lecture seule. Ces raccourcis dépendent du déploiement de bases de données KQL (Kusto Query Language). « Si la cible du raccourci contient des données au format Delta\Parquet, le lakehouse synchronise automatiquement les métadonnées et reconnaît le dossier en tant que table », trouve-t-on encore dans la documentation.

Différents moteurs (Spark, T-SQL, KQL, Analysis Services) peuvent être utilisés pour traiter des données sans avoir besoin de les copier plusieurs fois. Une seule « copie de données » peut suffire. C’est en tout cas la promesse de Microsoft. Ces charges de travail sont exécutées à l’aide d’instances dites serverless. Actuellement, le moteur de Power BI dispose d’un accès direct exclusif (Direct Lake) aux données présentes dans OneLake, sans passer par un Lakehouse.

La combinaison des plateformes auparavant disparates dans un seul environnement vise à simplifier la gestion et l’analyse des données, selon Microsoft.

Une offre unifiée moins coûteuse que l’approche best of breed, défend Microsoft

La complexification des environnements de données et des charges de travail motiverait la naissance de Fabric. Cette plateforme a été développée pour répondre aux besoins des organisations alors que l’IA devient plus omniprésente et que la BI évolue des visualisations de données à la formation et à l’analyse de modèles, selon Frank Shaw, vice-président communication de Microsoft.

« Microsoft Fabric transforme la façon dont les équipes manipulent les données en réunissant tout le monde sur une seule plateforme, alimentée par – et conçue pour – l’ère de l’IA », a-t-il déclaré lors d’une conférence de presse virtuelle le 10 novembre. « Il crée une expérience intégrée et simplifiée qui unifie l’état de vos données sur un SGBD pensé pour les entreprises. »

La plupart des organisations combinent les solutions d’intégration, de stockage d’analytiques et de visualisation de plusieurs éditeurs. Elles ne le font pas forcément de gaieté de cœur, mais pour éviter de s’enfermer auprès d’un fournisseur qui, in fine, l’empêcherait techniquement d’exploiter ses données ailleurs.

Cependant, une approche neutre dite « best of breed » comporte à la fois un coût financier – il est généralement plus onéreux d’assembler des outils de différents fournisseurs –, ainsi qu’une forme de complexité. Plutôt que d’acheter des outils conçus pour s’intégrer les uns aux autres, les organisations doivent elles-mêmes connecter des produits qui n’ont pas été initialement développés pour s’emboîter.

Comme pour Power BI, Microsoft brandit l’argument financier. La tarification des traitements dans Fabric est basée sur l’usage. Les tarifs débutent à 36 cents par heure ou 262,80 dollars par mois pour deux unités de calcul et vont jusqu’à 368,64 dollars par heure ou 269 107,20 dollars par mois pour 2 048 unités en mode « pay as you go ». Microsoft propose « environ 41 % d’économies » en réservant des capacités à l’année, ce qui fait tomber ce prix à 160 085,33 dollars par mois.

Le stockage dans OneLake coûte 0,023 du Go par mois (comme chez Snowflake), les fonctions de continuité des activités et reprise après sinistres coûtent 0,041 4 du Go par mois. Le cache est facturé 0,246 par Go par mois.

Pour autant, Microsoft sait parfaitement que les entreprises ne se passeront pas de leurs outils existants du jour au lendemain et que les capacités de Fabric ne sont pas forcément les meilleures du marché.

C’est pour cela qu’il ouvre sa plateforme aux partenaires afin d’intégrer leurs solutions à OneLake Foundation, et développer des versions de leurs applications et de leur charge de travail sur Fabric.

La fonction de raccourcis vers S3 d’Amazon montre que Microsoft reconnaît que les clients utilisent des outils de plusieurs fournisseurs, remarque Dave Menninger.

« Alors que la plupart des fonctionnalités de Fabric visent à unifier les produits et services Microsoft, Microsoft peut aider ses clients encore plus en étendant davantage Fabric », considère Dave Menninger. « Voyons jusqu’où ils vont pour intégrer les sources de données tierces. »

Le géant du cloud tente là de reprendre le dessus sur Snowflake et Databricks (le modèle de OneLake et Fabric), dont les lakehouses sont généralement combinés par les entreprises pour répondre aux usages de data science et d’analytique/BI.

La simplicité, quant à elle, est peut-être le plus grand avantage de Fabric, selon Dave Menninger.

« La plupart des capacités ne sont pas nouvelles, mais elles ont toutes été réunies dans une plateforme unifiée ».
Dave MenningerAnalyste, Vantana Research

« La plupart des capacités ne sont pas nouvelles, mais elles ont toutes été réunies dans une plateforme unifiée », résume-t-il. « Les utilisateurs devraient trouver plus facile de combiner toutes ces capacités dans le contexte de Fabric plutôt que de devoir assembler les choses pour créer leur propre tissu de données ».

Au-delà du coût et de la simplicité, OneLake est la brique la plus intéressante de Fabric.

« En permettant le partage de données entre les applications, ces capacités contribueront à réduire les données redondantes et tous les problèmes qui y sont associés, notamment les pipelines de données supplémentaires, les problèmes de synchronisation et les défis de gouvernance des données », avance-t-il.

Non pas un, mais deux Copilot dans Fabric

Outre la mise à disposition de Fabric, Microsoft a dévoilé la prévisualisation de Copilot dans Fabric. Cet outil de traitement du langage naturel (NLP) permet aux utilisateurs d’interroger leurs données et de générer du code en langage naturel.

Comme avec GitHub Copilot, Microsoft s’appuie sur les capacités des modèles d’OpenAI. Pour l’heure, ce n’est pas un, mais deux copilotes que le géant du cloud propose. Le premier n’est compatible qu’avec Power BI afin de commenter des visualisations et rapports BI. Le second, Copilot for notebooks, dont la disponibilité générale est prévue à la fin mars 2024, devra aider les équipes data à générer du code pour créer des graphiques, filtrer des donnés, appliquer des transformations et générer des modèles de machine learning.

De nombreuses plateformes de gestion de données et d’analyse disposaient ces dernières années de capacités de NLP. Mais ces capacités de NLP étaient limitées. Elles étaient formées avec des vocabulaires finis, ce qui signifiait qu’il fallait tout de même être formé pour utiliser les outils, et elles ne pouvaient pas être utilisées pour la modélisation et l’analyse approfondie.

Cela a changé depuis qu’OpenAI, partenaire de Microsoft dans lequel le géant de la technologie a investi 13 milliards de dollars, a publié GPT-3.

Ce modèle linguistique de grande envergure a marqué une amélioration substantielle dans la technologie d’IA générative et LLM (large language model). ChatGPT et d’autres LLM, tels que Google Bard et Azure OpenAI de Microsoft, comprennent la majorité des interactions en langage naturel.

En intégrant ces LLM avec leurs propres outils, les fournisseurs de gestion de données et d’analyse peuvent désormais proposer des capacités de NLP, qui permettent aux clients de poser des questions sur leurs données tout comme ils effectueraient des recherches sur Google. De plus, ils peuvent développer des processus et des pipelines sans avoir à écrire de code. Google, AWS, Informatica, Qlik, Tableau, Databricks, MongoDB… pratiquement tous se lancent dans l’aventure.

Microsoft met à niveau la disponibilité et la sécurité de ses services de bases de données

Au-delà de Fabric, Microsoft a présenté une série d’autres capacités d’analyse et de gestion des données nouvelles et améliorées, y compris de nouvelles fonctions de base de données telles que la recherche vectorielle dans Azure Cosmos DB MongoDB vCore et CosmosDB PostgreSQL.

Parmi celles-ci, l’on peut lister :

  • Des mises à jour d’Azure SQL qui doivent aider les clients à réduire les coûts et augmenter la fiabilité du service.
  • Une intégration entre Microsoft 365 et OneLake.
  • De nouvelles fonctionnalités dans Azure Cosmos DB, pour réduire les coûts (mise à l’échelle dynamique par partition ou région) et améliorer la productivité des développeurs (intégration de Copilot).
  • Une sécurité et une haute disponibilité améliorées pour SQL Server sur Azure Arc.
  • Des améliorations de performance dans Azure Database.
  • De nouvelles capacités d’IA et des améliorations de performance (jusqu’à 20 000 IOPS, en sus d’un accès en préversion à des SSD Premium v2, jusqu’à 64 To et 80 000 IOPS) pour Azure Database for PostgreSQL.

Pour approfondir sur Big Data et Data lake

Close