AWS Re:Invent 2022 : l’analyse géospatiale débarque dans SageMaker

Le géant du cloud a ajouté des outils de gouvernance des données et de traitement de données géospatiales à sa plateforme de machine learning. Il souhaite également accélérer la préparation des données en offrant 40 nouveaux connecteurs pour Data Wrangler.

Le géant du cloud n’a cessé de faire évoluer SageMaker depuis son lancement il y a cinq ans. Le service est devenu l’une des plateformes ML les plus utilisées par les entreprises, sans toutefois qu’elle soit la plus abordable.

« Les initiatives des entreprises en matière d’IA gagnent en maturité. Elles conçoivent activement des systèmes opérationnels qui intègrent des données et des pipelines d’IA », déclare Chirag Dekate, analyste chez Gartner. « Les annonces consacrées à SageMaker répondent à bon nombre de leurs enjeux, notamment la collaboration, la gestion des rôles et des modèles permettant à diverses équipes d’intégrer leur expertise pour fournir des systèmes d’IA opérationnels à haut rendement ».

Parmi les huit nouvelles fonctionnalités de SageMaker annoncées lors de re : Invent 2022, Swami Sivasubramanian, vice-président des données et du machine learning chez AWS, a d’abord mis en avant le renforcement de la gouvernance des données.

Amazon SageMaker Role Manager définit des autorisations personnalisées et est livré avec des modèles de politiques prédéfinis pour divers rôles et traitements ML, selon AWS.

« Des fonctionnalités telles que les tableaux de bord consacrés aux modèles simplifient la gestion de plusieurs pipelines d’IA et améliorent l’observabilité à travers le système d’IA opérationnel ».
Chirag DekateAnalyste, Gartner

Quant aux SageMaker Model Cards, elles visent à rationaliser la documentation des modèles au cours de leur cycle de vie, en créant une « source unique de vérité ». Ces cartes doivent fournir automatiquement des informations sur l’entraînement des modèles, les ensembles de données utilisés, les artefacts et l’environnement d’inférence.

Un nouveau tableau de bord nommé SageMaker Model Dashboard permet de surveiller les performances de tous les modèles en un seul endroit.

« Ce sont des capacités vraiment puissantes qui vous aideront à construire une gouvernance de la responsabilité ML, de définir clairement le partage des autorisations et des obligations », a vanté Swami Sivasubramanian lors de la keynote.

Selon Chirag Dekate, « des fonctionnalités telles que les tableaux de bord consacrés aux modèles simplifient la gestion de plusieurs pipelines d’IA et améliorent l’observabilité à travers le système d’IA opérationnel ».

De nouvelles fonctionnalités géospatiales

En outre, SageMaker a le droit à de nouvelles fonctionnalités de traitement de données géospatiales.

Le géant du cloud entend donner les outils à ses clients pour développer des applications telles que la réponse aux catastrophes, la planification urbaine, la logistique et le transport.

Disponibles en préversion dans la région ouest des États-Unis, ces outils visent, selon le fournisseur, à simplifier la construction, l’entraînement et le déploiement de modèles géospatiaux complexes.

Plus précisément, la collection géospatiale fournit des modèles préentraînés de deep learning et des opérateurs géospatiaux. Ceux-ci doivent permettre aux utilisateurs de se connecter « facilement » à de grands ensembles de données géospatiales et de les préparer, selon AWS. Les prédictions générées par les modèles peuvent être visualisées sur des cartes.

L’introduction d’outils géospatiaux dans Amazon SageMaker s’inscrit dans la droite lignée de l’accent mis par AWS sur la supply chain, selon Bradley Shimmin, analyste chez Omdia ; une activité qui a fait l’objet d’une autre annonce lors de reInvent.

AWS a également présenté une version revue et corrigée des Notebooks disponibles dans Amazon SageMaker Studio. Ceux-ci intègrent des capacités intégrées de préparation de données « simples » issues directement de SageMaker Data Wrangler. Ils permettent de générer des visualisations à partir de data frames Panda et ainsi étudier la distribution des données. Les notebooks fournissent des indicateurs sur les problèmes affectant les colonnes d’une table et les recommandations pour effectuer des transformations adéquates.

Data Wrangler, pour sa part, peut servir à déployer des flux de préparation pour des inférences en batch ou en temps réel.

Selon le fournisseur, avec les nouveaux Notebooks, il est possible de générer automatiquement le code nécessaire à une transformation au sein d’un notebook.

Les jeux de données, les modèles, les jobs d’entraînement, ou les expérimentations peuvent désormais être partagés via les Shared Spaces, accessibles depuis l’interface utilisateur de SageMaker Studio. Ici, les actifs sont stockés dans un dossier Amazon EFS et s’ils sont créés à l’aide du Studio, ces ressources sont automatiquement libellées, assure AWS.

Cette notion de partage est également au cœur des nouveautés de SageMaker JumpStart, un service proposant des réseaux de neurones et des algorithmes préentraînés pour exécuter des tâches spécifiques. Là aussi, il s’agit de partager des artefacts comme des notebooks, des modèles ou des jeux de données avant d’entraîner un algorithme puis de le déployer.

Quand un modèle est prêt à être lancé en production, SageMaker Notebook Job est une nouvelle fonctionnalité pour automatiquement convertir le code au sein d’un notebook en job. Le studio prend un instantané du notebook, package les dépendances dans un conteneur, lance l’infrastructure, exécute le job et arrête les machines. L’exécution des Notebook Jobs peut être planifiée et donc automatisée.

Enfin, SageMaker contient une fonction de shadow testing afin de comparer la performance de l’inférence entre différentes variantes d’un même modèle

Ces ajouts reflètent la volonté d’AWS de rattraper les avancées des acteurs indépendants, comme Databricks pour la préparation et l’intégration des données et DataRobot pour les tests de modèles, poursuit l’analyste.

« Depuis longtemps, ils [AWS] s’efforcent de faire de SageMaker une plateforme capable de s’adapter à un large éventail de types de données. La prise en charge des données géospatiales va dans la bonne direction », estime Bradley Shimmin.

Le traitement de données géospatiales a longtemps été la chasse gardée de quelques acteurs spécialisés, dont Esri. Cela réclamait le développement de solutions en propre à partir des bases de données Oracle ou PostgreSQL (via l’extension PostGis, entre autres). Des startups, comme Kermap, mêlent, elles aussi, données géospatiales et machine learning.

« Ils [AWS] ne sont pas les seuls à le faire, et si vous regardez la liste des caractéristiques et des fonctions qu’ils ont ajoutées à SageMaker, aujourd’hui, vous verrez beaucoup de choses similaires effectuées par des acteurs plus petits depuis un certain temps maintenant », reconnaît l’analyste d’Omdia.

Des connecteurs tiers attendus de longue date

Mais avant de créer des modèles de machine learning, il faut bien pouvoir collecter des données.

« Aujourd’hui, nous vous apportons plus de 40 nouveaux connecteurs par le biais d’Amazon Appflow dans SageMaker Data Wrangler. »
Swami SivasubramanianVice-président des données et du machine learning, AWS

« Aujourd’hui, nous vous apportons plus de 40 nouveaux connecteurs par le biais d’Amazon Appflow dans SageMaker Data Wrangler, ce qui vous permet de mettre en œuvre et de saisir encore plus de vos données pour la construction de modèles ML et le trading », avance Swami Sivasubramanian.

Amazon Appflow est un service d’intégration entièrement managé censé faciliter les échanges entre des applications SaaS et des services AWS, comme Amazon S3 ou Redshift. Au total, Appflow propose une cinquantaine de connecteurs.

Les nouveaux connecteurs permettent d’extraire des données de plateformes très populaires, notamment LinkedIn et Google Ads, et d’autres applications telles que Snowflake, Salesforce et SAP.

AWS est en concurrence avec bon nombre de ces plateformes, et le fournisseur a été critiqué pour sa lenteur à fournir la prise en charge des données en provenance de ces applications tierces. Selon Bradley Shimmin, il est peu probable qu’AWS plie l’échine pour faire plaisir à ses détracteurs.

Il s’agirait plutôt « de la reconnaissance du fait que, dans le domaine de la data science en particulier, les entreprises sont tout à fait disposées à utiliser une solution multifournisseur, parce qu’elles veulent utiliser le meilleur outil pour résoudre leurs problèmes », avance l’analyste d’Omdia.

Pour approfondir sur Intelligence Artificielle et Data Science

Close