AWS lance la brique manquante pour unifier l’analytique et l’IA dans SageMaker

AWS souhaitait rattraper fonctionnellement les offres de Snowflake, de Databricks et de ses concurrents Google Cloud et Microsoft Azure. Il lance enfin en disponibilité générale la couche pour unifier l’analytique et l’IA dans SageMaker.

Unified Studio a été dévoilé en préversion en décembre 2024, lorsqu’AWS a lancé une version mise à jour de SageMaker.

AWS fait de SageMaker (une plateforme de machine learning présentée en 2017) un environnement unique pour la gestion des données, l’analytique et l’IA. Il s’agit d’éliminer le besoin de déplacer les données d’une plateforme à une autre. Lors du lancement de la mise à jour, les fonctionnalités en disponibilité générale incluaient SageMaker Lakehouse pour le stockage et l’unification des données, et SageMaker Catalog pour la gouvernance.

La fonctionnalité principale, cependant, Unified Studio, était en préversion. Sa disponibilité générale est donc significative, selon Doug Henschen, analyste chez Constellation Research. « L’unification sera certainement utile pour les nouveaux clients et pour les clients existants qui utilisent déjà plusieurs de ces services de concert », estime l’analyste.

En plus d’Unified Studio, AWS a mis à disposition Amazon Q Developer, un assistant IA intégré à Unified Studio, et une intégration entre SageMaker et Amazon S3 Tables. S3 Tables est un moyen pour le fournisseur cloud de prendre en charge directement les tables Apache Iceberg.

S3 Tables est intégré à la fois aux services analytiques et à Sagemaker Lakehouse. Les interactions avec Athena, Firehose, EMR, Glue, Redshift et Quicksight sont également possibles.

Unifier l’IA et l’analytique

Historiquement, la gestion des données consistait à stocker les données dans des bases et des entrepôts de données jusqu’à ce qu’elles soient nécessaires pour alimenter les outils analytiques et les modèles de machine learning. Les premiers servent à concevoir les tableaux de bord qui aident la prise de décision, les seconds servent à les planifier et à en simuler les conséquences.

 Aujourd’hui, les capacités d’IA et d’analytique se rapprochent et sont accessibles depuis une seule plateforme. Par ailleurs, de nombreux assistants propulsés à l’IA générative promettent d’accélérer l’analyse des données et la génération d’indicateurs clés par le biais d’interfaces en langage naturel. Ils doivent aussi aider à automatiser les pipelines de données.

« Les données et l’IA sont inséparables », tranche Doug Henschen. « Les professionnels des données et de l’IA se familiarisent avec les outils de leur choix et créent des flux de travail [préférés], mais ces processus peuvent être lourds. […] Tout ce que les fournisseurs peuvent faire pour rationaliser les flux de travail liés aux données et à l’IA profitera aux utilisateurs ».

« Si vous pouvez rassembler davantage de composants de l’architecture de l’information, cela réduit la complexité et les efforts nécessaires pour créer et maintenir les systèmes. »
David MenningerAnalyste, ISG Software Research

De même, David Menninger, analyste chez ISG Software Research, assure que les outils d’IA nécessitent de grandes quantités de données de haute qualité pour être précis. Cependant, en raison de la séparation des données dans un environnement et du développement dans d’autres, les organisations ont eu du mal à mettre les outils d’IA en production. « Si vous pouvez rassembler davantage de composants de l’architecture de l’information, cela réduit la complexité et les efforts nécessaires pour créer et maintenir les systèmes », juge-t-il.

AWS fournit un large éventail de capacités de gestion des données, d’analyse et d’IA, note l’analyste. Cependant, avant la mise à jour de SageMaker, elles étaient peu intégrées. « L’une des critiques à l’égard d’AWS était qu’il fallait une quantité importante de connaissances et d’efforts pour relier des éléments distincts », évoque David Menninger. « Réunir les données, l’analytique et l’IA […] facilitera considérablement l’utilisation de ces produits par les entreprises ».

AWS résout un problème d’intégration (et clarifie son portefeuille)

Alors que SageMaker Lakehouse et SageMaker Catalog assurent la gestion des données au sein de SageMaker, Unified Studio est son environnement pour le développement de l’IA et de l’analytique. Unified Studio comprend le traitement des données, les analyses basées sur SQL, le développement de modèles de machine learning et les capacités de développement d’IA générative.

Plus précisément, Unified Studio est une interface pour gérer des charges de travail AWS Glue, EMR, RedShift, DynamoDB et S3.

De plus, Unified Studio intègre certaines fonctionnalités d’Amazon Bedrock, le principal environnement de développement d’IA du géant technologique. Il s’agit notamment de faciliter la conception d’application RAG et d’assistants IA à travers une interface utilisateur.

« La prochaine génération de SageMaker vise à fédérer les éléments. »
Sirish ChandrasekaranV-P analytique, AWS

Sirish Chandrasekaran, vice-président de l’analytique chez AWS, souligne que les entreprises concurrentes se distinguent par leurs données. Toutes ont accès aux mêmes modèles d’IA générative, outils de développement et plateformes de gestion de données. Aucune ne dispose des mêmes données.

Il est donc important de réunir des données uniques et les fonctionnalités qu’elles alimentent, et de simplifier au maximum cette opération. « La prochaine génération de SageMaker vise à fédérer les éléments », résume Sirish Chandrasekaran.

Les données alimentent divers outils utilisés par différents acteurs au sein des organisations, poursuit-il. Contrairement au passé, ces outils et ces acteurs interagissent désormais.

Par exemple, une entreprise peut avoir besoin d’une table de segmentation client qui alimente un modèle de machine learning, qui à son tour propulse une application, laquelle produit de nouvelles données qui alimentent la table de segmentation client.

 « Lorsque l’on pense à ces flux de travail et à ces tâches autrefois distinctes, nous voyons des équipes se regrouper et vouloir travailler sur les mêmes jeux de données, partager des ressources et évoluer rapidement », décrit Sirish Chandrasekaran. « Unified Studio réunit toutes ces fonctionnalités. »

SageMaker est désormais la principale plateforme d’AWS pour la gestion des données, l’analyse et l’IA, selon le vice-président de l’analytique chez AWS. Cependant, les utilisateurs actuels ne seront pas obligés de migrer vers cette plateforme s’ils préfèrent utiliser des outils tels que Redshift de manière autonome.

AWS sur la voie de Microsoft et de Google

D’un point de vue concurrentiel, AWS n’est pas le premier hyperscaler à combiner des fonctionnalités de gestion des données, d’analyse et d’IA jusque-là disparates.

Microsoft l’a fait avec Fabric en novembre 2023. Google Cloud, malgré l’intégration de ses fonctionnalités d’analytique et d’IA à BigQuery, n’a pas encore dévoilé de plateforme entièrement unifiée pour la gestion et l’analyse des données.

Des fournisseurs de plateformes de données tels que Databricks et Snowflake ont également combiné le développement de l’IA et la gestion des données au cours des deux dernières années. Toutefois, il leur manque quelques fonctionnalités, selon David Menninger.

 « Le portefeuille AWS est l’un des plus vastes de ce secteur », estime l’analyste d’ISG. Il ne détaille cependant pas ces manques qui seraient comblés par AWS. Ces dernières années, les entreprises ont largement fait appel à Databricks et Snowflake pour compléter des architectures de données existantes, y compris en lien avec des lacs de données Azure, AWS ou GCP.

Doug Henschen évoque lui aussi la similitude de Fabric avec SageMaker. Parallèlement, à mesure que de plus en plus de fournisseurs proposent des environnements unifiés pour des fonctionnalités jusqu’alors disparates, les entreprises devront choisir entre faire appel à un seul fournisseur pour tous leurs besoins en matière de données et d’IA, ou combiner leurs services.

Certaines entreprises ont effectivement fait le choix de la fédération ou de la virtualisation de données. Souvent, elles intègrent Snowflake et Databricks : l’un pour l’analytique, l’autre pour le machine learning et l’IA. D’autant que le choix d’éditeurs tiers a souvent été mené pour se départir d’une forme d’adhérence au cloud, même si elle ne disparaît pas. En outre, les briques de gouvernance et de catalogage de données des hyperscalers sont souvent moins complètes (et moins adaptées aux patrimoines de données existants) que celles d’acteurs comme Informatica, Collibra, Alation ou encore DataGalaxy. 

« Quoi qu’il en soit, je pense que la consolidation du marché est à venir », anticipe Doug Henschen.

Une feuille de route connue… et l’agentique ?

Les trois principaux composants de SageMaker – Lakehouse, Catalog et Unified Studio – étant désormais disponibles, AWS prévoit d’ajouter à Unified Studio des fonctionnalités telles que la gestion de flux de données, la BI et la recherche analytique, selon Sirish Chandrasekaran.

Doug Henschen et David Menninger ont tous deux fait remarquer qu’AWS avait déjà rendu publics ses projets concernant ces fonctionnalités. Toutefois, il reste à voir dans quelle mesure elles seront intégrées avec succès.

« Je suis impatient de voir comment ces intégrations se déroulent », lance l’analyste de Constellation Reasearch, attentif.

David Menninger, quant à lui, rappelle la jeunesse de l’IA agentique, de sorte qu’AWS et ses pairs doivent développer des capacités qui permettent aux entreprises de construire et de déployer avec succès des agents.

« Il y a encore du travail à faire pour AWS et d’autres sur les agents », prévient-il.

Pour approfondir sur IA appliquée, GenAI, IA infusée