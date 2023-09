Au mois de septembre, la LF AI & Data a accueilli trois nouveaux projets présentés lors de l’Open Source Summit 2023, à Bilbao.

D’abord, DeepCausality fait son entrée dans son portfolio comme un projet Sandbox. Il s’agit d’une librairie « de causalité computationnelle avancée adaptée au langage de programmation Rust ». Contrairement au Deep Learning qui s’appuie sur la corrélation de données et une approche non déterministe, la causalité computationnelle repose sur l’analyse des relations de cause à effet.

Il s’agit de croiser les informations spatio-temporelles associées à des données pour les contextualiser. Cette technologie peut être utilisée dans le cadre de la modélisation financière ou encore pour renforcer l’efficacité des systèmes de contrôle dynamique (tout système exécuté en temps réel, par exemple une infrastructure cloud ou un avion). Il est également possible de combiner DeepCausality avec des modèles de deep learning pour encadrer les résultats qu’ils peuvent fournir.

Ensuite, Fujitsu a profité de l’événement pour libérer deux projets open source.

Le premier, SapientML, est un outil d’AutoML écrit en Python consacré au développement rapide de modèles de machine learning. À partir de données tabulaires, il est possible de mettre en compétition 20 modèles de prédiction de tâches tirés des librairies comme XGBoost ou encore Scikit Learn. L’outil génère alors le code du modèle le plus approprié. Selon Fujistu, contrairement aux autres technologies d’AutoML, SapientML ne requiert pas d’exécuter chacun des modèles de machine learning sélectionnés, ce qui évite d’accaparer des machines pendant de longues heures et de grosses factures dans le cloud. Techniquement, il s’agit de « réduire l’espace de recherche », c’est-à-dire le temps nécessaire pour trouver le bon modèle et établir le pipeline nécessaire à son exécution.

Autre point important pour le fournisseur, SapientML ne doit pas produire de modèles boîtes noires. Le code du modèle et du pipeline générés est lisible par un humain et peut être modifié après coup. Les data scientists peuvent utiliser leurs propres jeux de données et pipelines en combinaison de SapientML pour automatiser la création des suivants.

Intersectional Fairness: à la recherche des biais intersectionnels

Le second projet donné par Fujitsu à la LF AI & Data se nomme Intersectional Fairness. Il s’agit d’un outil de détection et de mitigation de biais dans des algorithmes de machine learning. Il peut être combiné avec AI Fairness 360, donné par IBM à cette même fondation en 2020.

Aujourd’hui, les détections de biais dans les modèles statistiques et de machine learning sont généralement effectuées en prenant en compte un seul attribut. Pour davantage d’équité et d’explicabilité, les chercheurs de Fujitsu cherchent à croiser plusieurs de ces attributs.

Dans le détail, les chercheurs de Fujitsu s’appuient sur une méthode développée en interne nommée One vs One Mitigation. Il s’agit de comparer des paires de sous-groupes d’une population afin de constater si oui ou non une sous-population n’est pas plus mal considérée en entrée et en sortie d’un modèle.

À titre d’exemple, Fujitsu évoque un algorithme d’aide à l’accord de crédit. Si les hommes semblent légèrement favorisés par rapport aux femmes, il se peut que le groupe de femmes « non blanches » (sic) soit soumis à un taux de refus bien plus élevé que celui des femmes, des femmes blanches ou des hommes.

La détection de ces biais intersectionnels permet de réajuster des modèles traditionnellement entraînés sur des données historiques. Fujitsu ne veut pas seulement s’attaquer au biais de genre ou de « race ». La méthode de mesure des biais intersectionnels doit pouvoir s’appliquer à tout processus de décision.

Pour l’instant, Instersectional Fairness prend en charge quatre techniques de prétraitement, in traitement et post traitement : l’égalisation des chances, le data massaging, le débiaisage adversarial et la classification avec option de rejet. En clair, la méthode peut être appliquée tout au long du cycle de vie d’un modèle.

En principe, il serait possible de croiser un nombre infini d’attributs, mais le projet en est à ses débuts, signale Alvaro Cabrejas Egea, responsable de recherche chez Fujitsu Research Europe. Pour l’instant, il est recommandé d’exploiter un maximum de trois attributs croisés, par exemple le genre, l’âge et l’origine d’un individu.

Ces deux projets émanent de la plateforme d’IA connue sous le nom de code Kozuchi. Lancée en avril 2023, cette PaaS consacrée au déploiement de PoC fournit des « moteurs » AI Core, à savoir des systèmes et des logiciels consacrés à différentes tâches, dont une brique AutoML, de détection de biais, ou encore de vision par ordinateur.