sarayut_sy - stock.adobe.com

Ignite 2020 : Microsoft veut lui aussi simplifier Azure Machine learning

Lors de sa conférence virtuelle Ignite 2020, Microsoft a présenté les nouveautés et mises à jour d’Azure Machine Learning Services, sa solution consacrée à la data science. Son but est de simplifier les opérations de machine learning pour les data scientists et les data engineers.

Comme ses concurrents, Microsoft Azure fournit des solutions pour gérer les projets de data science. Azure Machine Learning intègre des outils, des langages (Python et R) et des frameworks (Keras, TensorFlow, mxnet, XGBoost,ONNX, sci-kit learn, etc.) dans un environnement de travail reposant sur les briques cloud Azure.

Avec les nouveautés d’Azure Machine Learning, Microsoft veut faciliter le travail des data scientists. Une tendance qui se généralise au regard des approches des autres fournisseurs et éditeurs. La première annonce concerne plutôt la manière de gérer le service en interne, afin de ne maintenir qu’une seule version. Le géant du cloud abandonne l’édition Entreprise et verse l’ensemble des capacités dans l’édition de base. Le 1er janvier 2021, la version Entreprise sera supprimée. Entretemps, les comptes des clients seront migrés sur l’édition de base. Microsoft ne facturera que les ressources consommées dans son cloud.

Plus intéressant pour les utilisateurs, trois produits entrent en disponibilité générale : Designer, AutoML UI et ML Labeling Assist.

Des outils pour simplifier le travail des data scientists dans le cloud Azure

Designer est un service de création de modèles de machine learning no-code en mode glisser-déposer. Il doit faciliter la connexion entre des jeux de données et des « modules » pour la préparation et le traitement des données (algorithmes, conversion de formats, outils ETL, déploiement des pipelines ML d’entraînement et d’inférence réalisés manuellement, etc.). Si l’interface n’est pas la même, le parallèle avec Flow de Data Science Studio, la plateforme de Dataiku est évident. Seulement, les ressources sont disponibles sur le côté gauche de l’UI. Concernant les algorithmes, Microsoft propose des modules de régression (six dont des forêts aléatoires, de la régression linéaire ou encore un réseau de neurones pour des régressions), de classification bi-classe et multiclasse (11 au total) et de Clustering (K-means). Designer dispose également des modules de recommandation, de détection d’anomalies et de computer vision. Les algorithmes peuvent être développés en R ou en Python et être exécutés via Designer.

Malgré sa simplicité apparente, Designer n’est pas pour tout le monde, et ce même si Microsoft fournit des conseils et des recommandations suivant les cas d’usage. Il s’agit véritablement d’un studio pratiquement clés en main, pour les data scientists et les analystes les plus aguerris. Cela nécessite tout de même l’intervention de data engineers et de data architects pour paramétrer au mieux les intégrations depuis les différents services de stockage et de bases de données Azure (Azure Blob Storage pour n’en citer qu’un). Les entraînements sont réalisés sur des instances Azure Machine Learning, tandis que les modèles sont déployés à l’inférence sur Azure Kubernetes Service (AKS).

L’outil AutoML UI (dénommé Automated ML dans la documentation) est lui aussi basé sur une interface pour déployer des modèles de machine learning de classification de régression et de prévisions sur des données Time Series. Les utilisateurs ont le choix entre un SDK Python, et « l’expérience Studio » qui offre une interface no-code. Il faut tout de même connaître quels types d’algorithmes appliquer, étiqueter les données et préparer leurs formats, configurer les ressources informatiques (en local ou sur les nombreuses options Azure selon certaines conditions), puis lancer la procédure d’automatisation du feature engineering. Ensuite AutoML compare les paramètres et les modèles qui répondent le mieux à l’exercice imposé.

ML Labeling Assist est un outil pour automatiser l’étiquetage des données, plus particulièrement des images à des fins de traitement par computer vision. Une des opérations les plus longues (et souvent pénibles) de la data science. Là encore, le service du Studio fait appel à des modèles automatisés. Cet outil demande de spécifier un GPU avant de lancer deux opérations : le clustering et le préétiquetage. Pour l’utiliser, il faut étiqueter au minimum 300 images manuellement comprises dans des jeux de données d’au maximum 500 000 images. Il est ensuite possible de vérifier si ML Labeling Assist suit correctement les instructions indiquées.

Télétravail : sécuriser les accès aux environnements ML

D’autres fonctionnalités comprises dans Azure Machine Learning sont en préversion. Deux d’entre elles semblent directement inspirées par le télétravail imposé dû à la crise sanitaire en cours. Microsoft introduit donc un RBAC (en anglais, Role-Based Access Control) avancé pour mieux gérer les autorisations d’accès et les rôles au sein des environnements de travail. Workspace Private Link permet lui d’utiliser un environnement Azure ML depuis une IP privée dans un réseau virtuel (VNet).

Microsoft Azure met à jour sa distribution de Mlflow comprise dans Azure Machine Learning. Mlflow, c’est la plateforme open source dédiée au MLOps, le fait de gérer le cycle de vie des modèles de machine learning de bout en bout, conçu originellement par DataBricks. D’ailleurs une autre version de MLflow est disponible dans Azure Databricks, la version Azure du service analytique basé sur Spark (et la couche ACID par-dessus un data lake, Delta Lake).

Finalement, avec Azure ML, le géant du cloud se rapproche davantage de la stratégie d’AWS avec SageMaker que celle de Google Cloud avec AI Platform. Soyons clairs, c’est principalement la manière de proposer les outils qui diverge. D’un côté, il est possible depuis un environnement d’appeler différentes fonctionnalités (Azure et AWS), de l’autre il faut se constituer sa plateforme (GCP). Mais ce sera véritablement le coût et les usages qui décideront les DSI au vu de l’uniformisation de l’offre entre ces trois acteurs. À moins qu’ils ne se tournent vers Oracle ou IBM.

A lire aussi sur l'Ignite 2020

Ignite 2020 : Microsoft se dote d’une brique d’observabilité intelligente
Lors de sa conférence virtuelle, Ignite 2020, Microsoft a présenté les nouveaux services d’IA à l’inférence Azure Cognitive, adressés aux développeurs et aux administrateurs IT.

Pour approfondir sur Intelligence Artificielle et Data Science

Close