sarayut_sy - stock.adobe.com

Datarobot muscle ses capacités AutoML et MLOps

Datarobot a annoncé une mise à jour majeure de sa plateforme de data science, enterprise AI Platform. Cette version 6.2 comprend un ensemble de fonctionnalités qui visent à simplifier les processus AutoML et MLOps.

Datarobot se présente avec un a priori fort. « En tant qu’éditeur de la seule plateforme IA bout en bout sur le marché, nous disposons de l’expertise et du savoir-faire nécessaires pour aider nos clients à provoquer une véritable transformation de leur activité grâce à leurs investissements dans l’IA. Nos dernières améliorations accélèrent encore notre capacité à tirer de la valeur des données », vante Phil Gurbacki, SVP Experience produit et client, chez DataRobot.

Suite de l'article ci-dessous

Si l’argumentaire paraît prétentieux, il s’agit en réalité d’optimiser les capacités d’automatisation AutoML (algorithmes prêts à l’usage, mais entraînables) et MLOps de la plateforme de data science.

L’automatisation…

La version 6.2 doit améliorer en premier lieu une fonctionnalité introduite dans la release 5.2 de la plateforme : l’automatisation de l’ingénierie des caractéristiques (Feature Discovery). Le workflow dédié à l’analyse des relations entre les jeux de données a été optimisé pour faciliter la sélection, l’édition et la visualisation des data sets. Toutes ces opérations sont réalisables en simultané. Plus important, Feature Discovery permet d’explorer les logs associés aux caractéristiques (features) afin d’observer les paramètres écartés par cette capacité automatisée.

Feature Discovery semble appréciée des utilisateurs. Grégoire Gauriot, data scientist chez Infolégale (spécialiste de l’évaluation des risques de solvabilité des entreprises), témoignait de son usage de la plateforme lors de Big Data Paris 2020.

« Cette fonctionnalité nous facilite énormément le processus de Feature Engineering dans le sens où elle automatise les aspects très techniques de cette étape. Cela ne réduit pas la charge de travail importante d’intégration de la donnée en amont, mais c’est lors de cette phase que le data scientist doit apporter son expertise, sa valeur ajoutée », précise-t-il.

Pour rappel, DataRobot a acquis Paxata en décembre 2019 pour améliorer la préparation de données au sein de sa plateforme.

Justement très porté sur l’automatisation, l’éditeur basé à Boston optimise sa fonction AutoML avec la disponibilité en bêta public du mode Comprehensive Autopilot. Introduit dans la version 6.1 de la plateforme, ce mode doit permettre d’entraîner ou de tester tous les modèles de machine learning (appelées blueprints chez DataRobot) pour « maximiser leur précision ». Il s’agit tout simplement de lancer un workflow afin de mettre en compétition des configurations de caractéristiques et des techniques de modélisation, et de trouver la combinaison idéale pour un cas d’usage donné.

Les responsables de DataRobot précisent que cette fonctionnalité prend davantage de temps (et sûrement de ressources de calcul) que le mode nominal. Il est désormais possible de lancer une phase d’entraînement secondaire avec le bouton « Get More Accuracy » après un entraînement rapide. Cela permettrait d’observer le comportement d’un modèle dans un premier temps, puis de l’améliorer dans un second temps.

Dans la même veine, DataRobot optimise son outil de comparaison de modèles qui passe en disponibilité générale. Depuis un graphe, il permet d’observer les performances du modèle concernant les étiquettes (ROC), des métriques de classification, des matrices de confusion (Profit Curve). L’éditeur a surtout ajouté le support de binaires et des recommandations pour utiliser cet outil à configurer manuellement.

… et le MLOps selon DataRobot

L’éditeur associe également une solution de visualisation pour repérer les anomalies avec la fonctionnalité non supervisée Automated Time Series. Elle doit permettre de repérer les caractéristiques provoquant des comportements aberrants et fournir le score SHAP (SHapley Additive exPlanations) qui doit faciliter leur compréhension par les data scientists.

De son côté, la capacité Humble AI doit permettre d’ajouter des règles pour repérer des problèmes comme des prédictions incertaines (une prédiction en dehors des valeurs normales), des dérives de features entre la phase d’entraînement et de test, ou des changements de caractéristiques inattendues.

Une fois en production, il faut pouvoir gérer les modèles. Dans la version 6.1, DataRobot présentait un moyen de gouverner les modèles en production, celui-ci passe en disponibilité générale dans la 6.2. Une page permet de visualiser le modèle, son rôle, son langage de développement, s’il a besoin d’une mise à jour ou encore sa date de déploiement. Concrètement, la nouvelle version ajoute le support de l’audit des logs, tout comme l’a fait récemment Dataiku dans sa plateforme DSS.

Dataiku a aussi présenté un générateur de documentation de conformité. DataRobot, lui, introduit Compliance Template Builder qui permet de concevoir et de classer des modèles de documentation en s’inspirant du fonctionnement des services de développement Web low-code comme Elementor ou Visual Composer.

Par ailleurs, DataRobot veut optimiser l’intégration de sa plateforme avec les outils des data scientists. Il ajoute la possibilité de se connecter aux dépôts distants hébergés sur GitHub et Amazon S3 pour extraire les modèles et les caractéristiques stockés sur ces plateformes afin de les tester et les déployer depuis la plateforme DataRobot.

À noter que DataRobot a introduit en bêta public plusieurs ajouts, dont la lemmatisation pour des textes en anglais avec WordNet et Spacy, et la possibilité d’effectuer des régressions quantiles avec AutoML ou de réaliser de l’analyse d’impacts avec son data catalog (AI Catalog).

Une standardisation des plateformes de data science ?

Surtout, l’éditeur présente Portable Prediction Servers, son outil pour déployer des modèles containérisés sur « l’infrastructure choisie par l’utilisateur ». Actuellement les modèles sont à déployer via une API et les exécutables sont des fichiers .jar, du code source Java. Désormais, les modèles peuvent être encapsulés dans des images Docker. L’agent MLOps, destiné à suivre les performances d’un modèle, peut être directement intégré dans le même container ou en dehors, suivant les cas d’usage.

Là encore, le parallèle avec DSS de Dataiku est évident. L’éditeur d’origine française a lui aussi amélioré son support des images containérisées pour le déploiement des modèles.

Dans son Magic Quadrant consacré aux plateformes de data science et réalisé à la fin de l’année 2019, Gartner évoquait des points de chevauchement concernant la proposition de valeurs des éditeurs. Il restait toutefois « des différenciateurs » comme des interfaces utilisateurs simplifiées, des capacités d’autoML, MLOps, d’améliorations des performances et le support d’un plus grand nombre de cas d’usage. Onze mois plus tard, les acteurs du secteur semblent s’aligner sur les mêmes fonctionnalités clés. DataRobot mise davantage sur l’AutoML que ce concurrent et se rapproche davantage d’un Alteryx.

Pour rappel, Gartner plaçait DataRobot parmi les visionnaires de son Magic Quadrant, tandis que Dataiku faisait partie des leaders. Cela avait surpris l’éditeur basé à Boston ainsi que certains de ses clients. Le cabinet de conseils émettait surtout des réserves sur le coût de la plateforme de DataRobot, trop élevé selon les retours obtenus par Gartner.

Pour approfondir sur Intelligence Artificielle et Data Science

Close