9 problèmes de qualité des données qui menacent vos projets IA

La qualité de vos données a une incidence sur le bon fonctionnement de vos modèles d’IA et de machine learning. En identifiant et en anticipant ces neuf problèmes de données, les organisations seront en mesure de préparer des algorithmes efficaces.

par

Kathleen Walch, Project Management Institute

Publié le: 25 nov. 2020

Au cœur des projets d’IA modernes se trouvent des systèmes basés sur le machine learning. Pour exercer leur pouvoir prédictif, ils dépendent en grande partie des données. De ce fait, leur qualité influe fortement sur la pertinence de ces solutions.

Cependant, il n’est pas toujours facile d’obtenir et de conserver des données de haute qualité. De nombreux facteurs liés à la qualité des données menacent de provoquer le déraillement de vos programmes d’IA. Nous listons ici neuf problèmes qui doivent être absolument pris en compte et évités, de préférence avant qu’ils ne surviennent.

1. Données inexactes, incomplètes

Les données inexactes, incomplètes ou mal étiquetées causent généralement l’échec des projets d’IA. Les informations sont soit mauvaises, soit elles n’ont pas été convenablement nettoyées. Parfois, certains champs dans les tables manquent, d’où la présence de valeur Null, ou alors les données ne figurent pas au bon endroit. Un nom ou un attribut incorrect peut également ralentir le travail des data scientists.

Le sujet de la propreté des données anime le marché de la data preparation. S’activer à nettoyer des gigaoctets de données, passe encore, mais les traitements actuels visent à analyser des téraoctets, voire des pétaoctets d’information. Outre la nécessité d’instruire les producteurs de la donnée, des outils – eux-mêmes alimentés par l’intelligence artificielle – doivent aider à repérer et à éliminer les principaux défauts d’un data set. Cela revient à automatiser la recherche de valeurs Null et leur remplacement, à superviser l’étiquetage en fonction d’échantillons, ou même à la détection et l’application de standards de types de données.

2. Avoir trop de données

Si l’on répète à l’envi qu’un volume important de données est l’une des clés de voûte du machine learning, en avoir trop n’aide pas forcément. Ce problème est en lien direct avec le précédent. En effet, la masse d’information n’indique pas leur qualité et leur pertinence au regard d’un cas d’usage spécifique.

Le fait de devoir séparer les données utiles de ce vaste ensemble est un gaspillage de ressources organisationnelles. En outre, toutes ces données supplémentaires peuvent occasionner un « bruit » capable d’influencer les résultats d’un modèle. Celui-ci pourrait rencontrer des difficultés à « généraliser » son enseignement, c’est-à-dire à accomplir ce pour quoi il a été conçu dans un environnement en production.

les principales métriques pour mesurer la qualité des données — Mesurer la qualité des données peut vous assurer de garder vos projets d'IA sur pied et productifs.

3. Avoir trop peu de données

D’un autre côté, le fait de disposer de trop peu de données pose ses propres problèmes. Alors que l’entraînement d’un modèle sur un petit ensemble peut produire des résultats acceptables dans un environnement de test, faire passer ce modèle du pilote à la production nécessite habituellement plus de matières premières. Dans ce cas, le modèle peut s’avérer incapable de traiter des flux d’informations en production, et peut générer des scores biaisés ou trop spécifiques par rapport à la requête effectuée.

Cela dépend toutefois du type de modèle de machine learning ou de deep learning. Certains sont beaucoup moins sensibles à cette problématique, surtout quand ils visent à remplir une tâche peu complexe ou qui ne prend en compte qu’un faible nombre de données différentes.

4. Données biaisées

Les biais sont multiples. Si elles ne sont pas mauvaises en soi, certaines données échantillonnées d’un ensemble plus vaste peuvent ne pas correctement le représenter. Par ailleurs, l’utilisation d’informations anciennes, comme cela a pu être le cas en traitement du langage naturel (NLP), introduit un biais humain. Entraîner des chatbots sur des transcriptions de conversations téléphoniques des années 1960 aux États-Unis, risque de les rendre racistes, selon Luc Julia, co-inventeur de Siri. Autre cas possible, la manière de générer ou de collecter ces données peut engendrer un résultat faussé, tout simplement parce que certains paramètres importants ne seront pas pris en compte.

5. Données déséquilibrées

Si chacun veut essayer de minimiser ou d’éliminer les biais, c’est beaucoup plus facile à dire qu’à faire. Plusieurs facteurs peuvent entrer en jeu lorsqu’il s’agit de traiter des données biaisées. L’un de ces facteurs peut être le déséquilibre des informations. Les ensembles déséquilibrés peuvent entraver considérablement les performances des modèles d’apprentissage machine. Ils causent des surreprésentations d’une communauté ou d’un groupe tout en diminuant l’importance d’un autre.

Plus facile à évoquer que les problèmes de racisme (parce que moins complexe qu’une analyse sociostatistique), prenons l’exemple de la fraude bancaire. Heureusement, la plupart des transactions sont vierges de tous soupçons. Le pourcentage d’éléments suspicieux s’avère faible, voire, dans le meilleur des cas, infime. Un algorithme entraîné sur des données frauduleuses pourrait alors avoir tendance à généraliser les résultats. Il pointerait du doigt des paiements parfaitement légitimes (c’est d’ailleurs l’une des raisons pour lesquelles certaines banques préfèrent un moteur de règles au machine learning).

6. Silos de données

Ce déséquilibre observé dans certains data sets trouve parfois sa source dans un autre phénomène. Les organisations compartimentent les informations dans des silos. Résultant de contraintes techniques ou législatives, ce fait peut compliquer la collecte de données pertinentes.

Ils sont également le produit de pannes structurelles dans les sociétés où seuls certains groupes ont accès à certaines données, ainsi que de problèmes culturels où le manque de collaboration entre les services empêche le partage des données. Quelle qu’en soit la raison, les silos de données peuvent limiter la portée des projets d’intelligence artificielle. Les data scientists ne disposent pas forcément d’une vue exhaustive des ressources de l’entreprise.

7. Incohérence des données

Toutes les données ne sont pas créées selon un modèle unique. De plus, ce n’est pas parce que vous les collectez que celles-ci peuvent ou doivent toujours être utilisées.

La duplication est l’un des plus grands problèmes des entreprises qui emploient des datas.

Dans de nombreuses circonstances, les mêmes enregistrements peuvent exister plusieurs fois dans différents ensembles (par exemple dans les silos cités plus haut), mais avec des valeurs différentes, ce qui entraîne des incohérences. La duplication est l’un des plus grands problèmes des entreprises qui emploient des datas. Lorsque l’on puise dans des sources multiples, ce problème de qualité de données s’avère malheureusement récurrent.

8. Rareté des données

Ce défaut entre en résonance avec le troisième point évoqué dans cet article. Quand le volume de données est faible, il résulte souvent d’une pénurie. Cette carence est plus couramment due à un manque de variété ou à une quantité insuffisante de valeurs attendues. Et comme tous les éléments listés ci-dessus, l’impact sur les performances s’en fait rapidement sentir : difficultés du modèle à généraliser, surreprésentation, précisions au rabais, etc.

9. Problèmes d’étiquetage

Si la plupart des problèmes de qualité de données mentionnées surviennent généralement avant la mise en place concrète d’un projet de data science, d’autres dérivent d’une mauvaise préparation. L’étiquetage de données apparaît nécessaire quand l’on souhaite employer les techniques d’apprentissage supervisé. Il se trouve qu’elles sont à l’origine des progrès en analyse d’images ces dix dernières années.

Or cette tâche consistant à appliquer des métadonnées à des images ou des fichiers vidéo est majoritairement l’œuvre d’annotateurs humains. Il s’agit d’une pratique souvent longue et coûteuse et particulièrement sensible aux erreurs, que beaucoup d’entreprises ne maîtrisent pas encore. Pourtant, l’effort de contextualisation s’avère essentiel, pour qu’un modèle de computer vision ou de NLP accomplisse correctement son travail.

Conclusion

Mettre en œuvre une plateforme de data science est une chose, déployer des algorithmes en production en est une autre. Les organisations doivent en premier lieu prêter attention à la qualité de leurs données. Le maître mot à retenir : gouvernance. Sans une gestion adéquate et une stratégie pensée en amont, l’or numérique se change en plomb. Ce poids pèse non seulement sur les épaules des data scientists, mais aussi de la DSI et sur celles de l’entreprise toute entière, obligée de naviguer à vue dans une ère de transformation. Supervision, contrôle, explicabilité : autant de mots-clés qui doivent dicter la politique de qualité de données.

Pour cela, nous vous invitons à consulter les articles suivants où vous pourrez, nous l’espérons, glaner de précieux conseils et astuces :

Qualité de la donnée : adopter une démarche proactive pour l’améliorer

5 étapes pour améliorer la qualité des données

Six conseils pour faire la chasse au biais

IA frugale : comment entraîner des modèles avec peu de données