IA : DataRobot veut mettre le MLOps à la portée de tous (ou presque)

La semaine dernière, DataRobot annoncé la disponibilité de la version 8.0 de sa plateforme de data science, DataRobot AI Cloud. L’éditeur y poursuit son entreprise de simplification des déploiements des modèles de machine learning.

DataRobot met d’abord en avant son interface no-code, AI App Builder, présentée en juin 2021 dans la version 7.1. L’outil permet de développer des applications en se basant sur des modèles de prédiction, des prévisions multiples (« what-if ») et des simulations « optimales » après définition d’un objectif.

Début mars 2022, DataRobot a ajouté la possibilité de traiter des données times series avec AI App Builder. Ici, il s’agit de faire effectuer des prédictions et de les comparer avec un instant T sur une seule ou plusieurs séries chronologiques.

Attention, car la première unité de temps est l’heure. En clair, AI App Builder n’est pas calibré pour les scénarios industriels ou bancaires quand il est nécessaire d’analyser des données à la seconde ou à la milliseconde.

L’outil permet toutefois d’expliquer les résultats des prévisions. Les ingénieurs de DataRobot ont d’ailleurs décidé de rendre obligatoire la supervision des dérives des paramètres (features) du modèle associé aux séries chronologiques.

Simplifier le MLOps

Cette notion d’explicabilité est au cœur de la solution Continuous AI. Cet outil est conçu pour apporter une capacité de réentraînement automatisée via cinq politiques qui définissent un déclencheur, une stratégie MLOps, des paramètres et des actions de remplacements. « Une fois déclenché, le réentraînement va générer un nouveau modèle basé sur ces critères », avance la documentation de DataRobot. La dernière version en date de Continuous AI permet de déployer les modèles sur plusieurs clouds et sur site.

De plus, la fonction « Challenger Insights » est en disponibilité générale dans le module MLOps de la plateforme. Il permet de comparer la fiabilité, la précision et le comportement d’un modèle « champion » avec un « challenger » qui pourrait le remplacer. L’éditeur propose également une extension en préversion publique pour intégrer les prédictions DataRobot dans Tableau Analytics.

Dans le module AutoML, la fonction Bias Mitigation est en accès limité. Elle doit permettre « d’atténuer » automatiquement les biais de features « protégés », des paramètres sélectionnés pour des projets de classifications binaires. Au détriment d’une précision amoindrie, l’équilibre des poids d’un modèle est meilleur, suivant le choix d’une métrique d’équité.

L’arrivée de ces fonctionnalités dans DataRobot AI Cloud vise à rectifier la dérive des modèles dans le temps, selon les propos de David Menninger, analyste chez Ventana Research. D’autant que le processus de sélection du bon modèle à déployer en production n’est pas seulement difficile, il est long, ajoute-t-il. « Il y a encore deux ans, les entreprises mettaient à jour leurs modèles tous les trimestres », explique-t-il. « C’est un processus qui prend tellement de temps ».

D’autres acteurs comme Vade mettent à jour leurs modèles tous les six mois pour des raisons économiques, entre autres. Cependant, ni l’éditeur ni l’analyste n’évoquent le coût du réentraînement plus régulier qu’impliquerait cette méthode de mise en compétition des modèles ML.

Des modèles ML sur Snowflake

En outre, l’éditeur propose depuis quelque temps les Scoring Code, un moyen d’exporter des modèles ML générés en dehors de la plateforme de data science au sein de fichiers JARs, donc dans des environnements Java. Et comme H20.ai qui propose la même fonctionnalité, DataRobot rend sa technologie compatible avec les UDFs de Snowflake. En clair, il est possible de déployer des algorithmes depuis DataRobot dans le datawarehouse cloud. Bientôt, l’éditeur proposera avec Scoring Code l’export des modèles appliqués aux séries chronologiques. 

Selon David Menninger, il faut retenir l’intégration avec Snowflake, dont l’influence est de plus en plus forte sur le marché du data management. DataRobot et Snowflake avaient déjà annoncé un partenariat commun en juin dernier, mais l’exécution de modèles depuis le Data Cloud est une fonction très recherchée des usagers les plus avancés.

DataRobot met également en avant une intégration avec Azure Active Directory afin de sécuriser l’accès à Azure Synapse SQL en plus de ses connecteurs vers Redshift, SAP HANA, BigQuery ou encore Oracle. « Ce connecteur vous permet de vous connecter à Azure Synapse Analytics pour les importations et exportations de librairies. Pour l’exportation, le connecteur télécharge les données dans le service Data Lake d’Azure, puis expose les données sous forme de tableau dans SQL Data Warehouse », peut-on lire dans la présentation de la mise à jour.

Data science et self-service : un équilibre difficile à trouver

Reste à savoir si l’approche de DataRobot, de plus en plus portée sur le self-service, plaira aux data scientists, se demande David Menninger.

« [DataRobot] doit trouver un moyen de marcher sur cette ligne fine qui consiste à engager la communauté des spécialistes tout en facilitant l’accès à la data science. »
David MenningerAnalyste, Ventana Research

« Les data scientists accepteront-ils le travail effectué par DataRobot ? Seront-ils mécontents de ce que fait DataRobot ? », interroge l’analyste. « [DataRobot] doit trouver un moyen de marcher sur cette ligne fine qui consiste à engager la communauté des spécialistes tout en facilitant l’accès à la data science ».

Cependant, DataRobot semble être conscient de ce dilemme. En décembre dernier, il avait présenté l’offre Core, ainsi que la version 7.3 de sa plateforme. L’éditeur tente de s’attirer les faveurs de cette population plus technique. Au centre, on y trouve l’outil de notebook open source Apache Zeppelin, bien moins populaire que Jupyter, et l’accès à la plateforme de manière programmatique, via API.

Un autre paradigme apparaît : celui de ne plus forcément donner les clés du déploiement aux data scientists, mais aux ingénieurs des données ou du machine learning. Là encore, les responsables considèrent que les outils low-code/no-code ne permettent pas forcément de gérer la complexité de projets de machine learning avancés. À l’éditeur de leur prouver le contraire.

DataRobot AI Cloud 8.0 est disponible depuis le 17 mars pour un déploiement sur AWS, GCP, Azure et sur site.

Pour approfondir sur Intelligence Artificielle et Data Science

Close