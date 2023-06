La communication de l’éditeur d’origine française surfe d’abord sur son intégration avec les API d’OpenAI, dont celle qui permet d’interroger directement le modèle sous-jacent de ChatGPT, GPT-4.

Ici, Dataiku entend proposer une interface visuelle à partir de laquelle les métiers peuvent interroger les modèles GPT d’OpenAI en langage naturel pour effectuer des tâches comme de la génération de textes, produire des résumés, classifier des informations textuelles ou répondre à plusieurs questions. Les données en sortie peuvent être incorporées « en toute transparence et en toute confiance » dans des « recettes », les transformations dans le jargon de Dataiku.

Dataiku entend améliorer également l’orchestration des flux contenant plusieurs recettes. Il est désormais possible d’exécuter une recette (et non plus le flux en entier), mais aussi de lancer une suite de transformation à partir d’une recette donnée. L’option applique à la volée toutes les modifications de schéma aux jeux de données en sortie.

Dans cette même idée de rendre la data science opérationnelle, l’éditeur introduit des algorithmes de « prédictions causales ». Inspiré de l’inférence causale (et des modèles Uplift utilisés en marketing), l’idée n’est plus seulement de prédire un résultat, mais d’analyser les relations de cause à effet d’une action sur un groupe.

Plus de moyens pour contrôler les risques et auditer les modèles

Mais c’est bien sûr les sujets de la transparence et de confiance – ou plus prosaïquement de la gouvernance – que Dataiku concentre ses efforts.

Une des fonctionnalités clés de Dataiku 12 se nomme « Machine Learning Overrrides ». L’idée est d’appliquer des garde-fous, une « couche supplémentaire de contrôle humain », applicable aux prédictions d’un modèle. Selon Dataiku, il s’agit d’éviter la prédiction de valeurs aberrantes, de se conformer aux règlementations et de « faire respecter les limites éthiques ».

Pour cela, Dataiku s’appuie sur un moteur de règles de type IFTTT (« if then, then that »). Ces règles peuvent être définies via un système de filtres ou à l’aide de formules. Une formule se décompose en deux parties : la première spécifie les conditions de déclenchement (if then) et l’autre le résultat attendu dans une ligne d’une table (then that). Un modèle peut être soumis au contrôle de plusieurs règles, mais une seule d’entre elles peut s’appliquer à la fois.

Dans sa vidéo d’introduction, Dataiku donne l’exemple d’un vendeur automobile qui souhaite limiter la valeur de revente minimale et maximale estimée d’un véhicule endommagé. L’interface permet d’identifier simplement quand ces règles ont été appliquées et de retrouver la valeur prédite par un modèle en première instance.

De manière générale, cela permettrait d’éviter de subir le suréchantillonnage, de palier le faible volume de données, ou encore les différences – mêmes infimes - entre les données de tests et de production.

Outre un renforcement du contrôle des résultats, Dataiku veut faciliter l’explicabilité des modèles. La fonctionnalité « Universal Feature Importance » doit permettre rendre compréhensible le fonctionnement d’un plus grand nombre de modèles qu’auparavant, et ce, de manière agnostique. Pour ce faire, Dataiku s’appuie sur la valeur de Shapley (et non plus uniquement sur l’indice de Gini), a amélioré son interface de visualisation et a rendu compatible son système d’explicabilité avec les modèles MLFlow importés dans sa plateforme.

À l’aide d’un diagramme, les décideurs et les data scientists peuvent visualiser rapidement les variables importantes qui déterminent les prédictions d’un modèle. Mais il est également possible de visualiser de manière plus détaillée les effets des paramètres sur la prédiction et leurs interdépendances à l’aide de nuages de points.

« [Dataiku] s'attache à aider ses clients à avancer en toute confiance dans leurs initiatives en matière d'IA, tout en garantissant la confiance et en réduisant les risques », juge pour sa part Mike Leone, analyste chez Enterprise Strategy Group, une filiale de Techtarget aussi propriétaire du MagIT.