Cinq exemples pour appréhender les biais dans un projet NLP
L’utilisation du traitement du langage naturel devient de plus en plus courante en entreprise. Cette multiplication des usages force à se pencher sur les biais et le possible manque d’explicabilité des modèles NLP.
Le traitement du langage naturel (NLP) gagne de l’ampleur en entreprise. Tri des mails, analyse sémantique de comptes rendus fiscaux, détection d’intention et des émotions… les cas d’usage se multiplient. Avec cette montée en puissance de la technologie, il convient de prendre en compte les possibles biais qui pourraient fausser les performances ou la pertinence d’un modèle NLP. Voici cinq exemples pratiques pour appréhender ce phénomène.
A priori, « l’humain est plein de biais », selon Robert Vesoul, fondateur et PDG d’Illuin Technology, codirecteur de la chaire Innovation & Digital à Centrale Supélec. « Il faut donc lister les biais essentiels que l’on veut contrôler par rapport à des décisions humaines ».
Les biais sont à la fois d’ordre cognitif ou éthique et technique. Cependant, Robert Vesoul considère que leur impact sur la mise en production d’un projet NLP dépend fortement du cas d’usage.
NLP : le cas d’usage détermine le type de biais à surveiller
« Avant même d’évoquer le cycle de vie d’un projet NLP, l’énergie que l’on investit dans la recherche de biais dépend souvent du problème posé par la solution que l’on va bâtir et aux personnes à qui l’on s’adresse », déclare-t-il.
Robert VesoulFondateur et PDG, Illuin Technology
« Quand on analyse des CV ou que l’on conduit des analyses dans un domaine comme la santé, les biais auront potentiellement un impact fort. Dans un autre cas, un biais peut influencer les résultats du modèle sans présenter de risque éthique. Dans un projet pour la filiale DPD de La Poste, nous avons travaillé sur le redressement d’adresses. Il y a un besoin de normaliser la structure des adresses de livraison, mais l’enjeu est essentiellement technique ».
En effet, il s’agit là d’un problème de classification qui dépend de l’application de règles strictes.
Les biais dans les modèles de mesure de la satisfaction client
C’est un critère essentiel dans la mise en place d’un cas d’usage NLP. « Dans notre méthodologie, c’est le premier point que nous observons : l’enjeu du projet et ses conséquences sur l’éthique », affirme Robert Vesoul.
Par exemple, Illuin Technology a conçu Léonard, le chatbot de Chronopost. Dans ce cas-là, l’entreprise souhaitait classifier la satisfaction client en cinq à sept catégories sur des gros volumes de données. « Ici, l’enjeu est commercial, nous cherchons à comprendre la satisfaction ou l’insatisfaction d’un client. Si je fais une erreur, cela n’aura pas de conséquences directes sur les utilisateurs du service. En revanche, je dois calibrer correctement mon algorithme pour qu’il puisse détecter les expressions de cet avis chez les femmes, les hommes et plusieurs tranches de population », estime Robert Vesoul.
Si ce manque de précision n’a pas vraiment d’impact lors de cette analyse sémantique, l’emploi des résultats pour bâtir un modèle de réponse automatique pourrait « faire monter doucement en grade l’enjeu ».
La difficile résolution des biais de genre dans la sélection automatisée de CV
La comparaison et la sélection de CV par NLP, elles, peuvent comporter des problèmes éthiques. En effet, un biais de représentation – un manque de diversité inhérent à une source de données – peut largement mettre en avant la transmission des résultats à des responsables RH qui pourraient eux aussi appliquer une approche sélective suivant ce même biais. Par exemple, si une base de données de 5 000 CV employés pour entraîner l’algorithme contient principalement des profils masculins, alors le modèle peut entretenir un biais de genre.
Lutter contre ce phénomène n’est pas si simple qu’il y paraît, selon Robert Vesoul. « Je pourrais me concentrer uniquement sur les compétences techniques essentielles afin de sélectionner le profil adéquat, mais je risque d’obtenir des résultats peu satisfaisants », prévient-il. « Parfois, les compétences et d’autres informations comme le lieu de formation, le prénom ou les loisirs inscrits dans un CV contiennent des indicateurs implicites sur le genre. De même, la manière dont les soft skills sont exprimés par les candidats révèle cette appartenance ».
Une alternative consiste à tenter de s’abstraire de la question du genre en adoptant la formulation du CV, d’après Robert Vesoul. « Nous avons développé une plateforme avec un partenaire qui s’appuie sur de la psychologie positive pour que chacun autopositionne ses forces selon 50 critères. Cet exercice est plutôt agnostique du genre, mais cela ne résout pas totalement le problème ».
Des méthodes existent, mais restent complexes
Pour restreindre cet effet, les data scientists peuvent compter sur les travaux de recherche en cours.
« Il y a tout un champ de recherche qui va permettre de faire abstraction de certains paramètres, dont le genre. L’une des méthodes consiste à employer des réseaux antagonistes pour “dégenrer” le jeu de données et ensuite lancer l’algorithme de sélection de CV », explique Robert Vesoul.
Malheureusement, les réseaux antagonistes ne sont pas « simples à manipuler ». « Certaines approches consistent à générer des données artificielles et à y appliquer des modèles. Mais ces sources de données artificielles peuvent les faire dévier. En revanche, si la technique est correctement employée, les résultats sont satisfaisants », juge le PDG d’Illuin.
Autre difficulté, cela requiert des ressources humaines, des data scientists capables d’employer ces réseaux de neurones, le temps de le faire et donc les moyens financiers.
« Cela demande une approche et une volonté spécifique pour prendre en compte ce type d’aspect. Une entreprise pourrait ne pas s’y pencher par manque de temps ou de ressources. En l’occurrence, un recruteur peut finalement décider d’effectuer une discrimination positive, mais cela ne changera pas le comportement de l’algorithme en lui-même ».
Une technique consiste à combiner les méthodes apprenantes et un moteur de règles. « Cela permet en principe de réguler des aspects liés à l’algorithme, mais cela revient parfois à jouer le rôle d’apprenti sorcier. Imaginons que vous souhaitez obtenir la parité femme-homme dans vos résultats de sélection de CV. Cette discrimination positive peut être aussi perçue comme un biais ».
Avec une application médicale, aucun droit à l’erreur
Dans un autre cadre, Illuin Technology travaille avec une startup qui souhaite détecter les indicateurs de stress post-traumatique afin d’anticiper et mesurer les symptômes et l’aggravation de la situation mentale des patients à partir de questionnaires. « Nous sommes sur un sujet médical, hautement éthique. Il ne s’agit pas de jouer l’apprenti sorcier si l’on réalise des transcripts de conversations entre un patient et un médecin, par exemple », décrit Robert Vesoul.
« Si l’on veut qualifier l’évolution de la situation d’un patient à partir d’un modèle NLP, il faut appliquer des démarches académiques extrêmement rigoureuses concernant l’explicabilité et associer cette transcription avec des données cliniques, par exemple la mesure du pouls, au moment de poser des questions. Dès le départ, il faut anticiper tous les biais possibles, quitte à limiter la puissance de l’algorithme pour des raisons d’explicabilité ».
Les projets de recherche influent sur l’explicabilité des projets NLP
Enfin, cette question de la chasse au biais traverse l’exercice qui a fait connaître la startup née dans le berceau de Centrale Supélec. Illuin développe FQuAD, un jeu de données constitué de 60 000 paires de questions-réponses, un benchmark pour évaluer les capacités d’un modèle NLP en langue française et entraîner des algorithmes de question-réponse. Pour ce faire, il a fallu sélectionner « de manière ultra rigoureuse » des articles Wikipédia en mesurant le bon niveau de rédaction, en écartant les documents de nature polémique ou politique « qui pourraient laisser une part d’arbitraire ».
Malgré tout, « cette sélection et le travail d’annotation effectué par des humains révèlent une forme de subjectivité », conçoit Robert Vesoul. « En effectuant ces choix-là, nous-même avons peut-être introduit d’autres biais, mais il faut appliquer des méthodes rigoureuses, car l’incidence sur de gros volumes de données peut être importante ».
Le dirigeant évoque notamment le recours aux services du type Amazon Mechanical Turk, qui permettent de recruter des annotateurs indépendants avec le risque de s’éparpiller sans une supervision minutieuse. Or un tel data set sert ensuite dans l’ensemble des cas d’usage décrits plus haut, quelle que soit la langue.
Conclusion
Robert VesoulFondateur et PDG, Illuin Technology
La lutte totale contre les biais s’avère bien difficile, dans le domaine du NLP ou ailleurs. Il existe néanmoins des méthodes décrites par notre interlocuteur pour en limiter les effets. La dernière d’entre elles, révèle-t-il, consiste à sensibiliser les utilisateurs finaux.
« Dans une application, il faut signaler aux utilisateurs avec une bonne UX les possibles biais que les usagers peuvent rencontrer. Les GAFA ont commencé à le faire pour lutter contre les infox, mais nous sommes dans une totale opacité concernant le modèle utilisé dans le moteur de recherche. Idéalement dans le monde de l’entreprise, les deux aspects sont à notifier ».
D’ailleurs, Robert Vesoul estime que « la relecture humaine », la supervision de l’explicabilité dans le déploiement de cas d’usage, joue un rôle essentiel dans cette approche.