Definition

Qualité des données

La qualité des données (« data quality ») est une mesure de l’état des données fondée sur divers facteurs : précision, exhaustivité, homogénéité, fiabilité et actualité. Mesurer le niveau de qualité des données peut aider les organisations à repérer d’éventuelles erreurs qui doivent être corrigées, et à évaluer si les données présentes dans leurs systèmes informatiques sont adaptées à leurs besoins.

La qualité des données dans les systèmes d’entreprise prend une importance croissante depuis que le traitement des données devient un élément incontournable de l’exploitation et que des solutions analytiques sont de plus en plus utilisées comme outil d’aide à la prise de décision.

La gestion de la qualité des données est l’un des piliers du processus plus vaste de gestion de données et les efforts en la matière sont souvent étroitement associés aux programmes de gouvernance de données afin de s’assurer que celles-ci sont formatées et utilisées de la même manière à tous les niveaux de l’entreprise.

Pourquoi la qualité des données est essentielle

Qui dit données de mauvaise qualité, dit conséquences potentielles graves pour l’entreprise, allant de la pagaille opérationnelle aux stratégies d’entreprises indigentes en passant par une analytique approximative. Les problèmes de qualité des données peuvent, entre autres dommages économiques, engendrer des dépenses supplémentaires quand les produits sont envoyés à la mauvaise adresse, quand des opportunités commerciales sont perdues faute de disposer des coordonnées exactes ou complètes d’un prospect, ou encore quand l’entreprise reçoit une amende pour avoir produit un rapport de conformité financière ou réglementaire incorrect.

D’après une évaluation bien connue réalisée par IBM, le coût associé aux problèmes de qualité des données aux États-Unis en 2016 s’élevait à 3,1 milliards de dollars. Dans un article de la revue MIT Sloan Management Review paru en 2017, le consultant en qualité des données Thomas Redman estimait que la correction des erreurs et la gestion des problèmes opérationnels liés à des données de mauvaise qualité entraînaient en moyenne une perte de 15 à 25 % du chiffre d’affaires d’une entreprise.

On considère d’autre part que la défiance envers la qualité des données de la part des dirigeants et des directeurs commerciaux constitue l’un des freins majeurs à l’utilisation de l’intelligence décisionnelle (BI, Business Intelligence) et de l’analytique comme outils d’aide à la décision dans les organisations.

 Représentation schématique du cycle de vie de la qualité des données
Étapes du processus d'amélioration de la qualité des données.

Comment définir des données de bonne qualité ?

L’exactitude est un critère essentiel pour des données de haute qualité. Pour éviter les problèmes de traitement des transactions dans les systèmes opérationnels et les résultats erronés dans les applications d’analytique, il faut avant tout des données exactes. Toute imprécision dans les données doit être repérée, documentée et corrigée afin de s’assurer que les responsables, analystes et autres utilisateurs travaillent avec des informations de qualité.

D’autres aspects, d’autres paramètres sont également cruciaux pour la qualité des données : l’exhaustivité, car les jeux de données doivent contenir tous les éléments nécessaires ; la cohérence, qui désigne l’absence de conflit entre des valeurs identiques dans des systèmes ou des jeux de données différents ; l’absence de doublons dans les enregistrements des bases de données ; l’actualité des données, c’est-à-dire le fait qu’elles aient été mises à jour si besoin pour rester pertinentes ; enfin, la conformité aux normes de format des données fixées par l’organisation. Ces facteurs, quand ils sont respectés, contribuent à produire des jeux de données fidèles et fiables.

Comment déterminer la qualité des données ?

En général, pour déterminer le niveau de qualité de leurs données, les organisations procèdent dans un premier temps à un inventaire, au cours duquel sont mesurés la précision relative, le caractère unique et la validité des données afin d’établir un cadre de référence. Les valeurs de référence ainsi déterminées permettent ensuite une comparaison en continu avec les données dans les systèmes pour repérer puis résoudre les éventuels problèmes de qualité.

Autre étape courante, la création de règles de qualité des données à partir des besoins métiers concernant les données opérationnelles et analytiques. Ce type de règle établit les niveaux de qualité requis dans les jeux de données et détaille les différents éléments qu’ils doivent comporter pour permettre une vérification des attributs de qualité des données tels que la précision et la cohérence.

Une fois les règles mises en place, l’équipe chargée de la gestion des données procède généralement à une évaluation pour mesurer la qualité des jeux de données, et documenter les erreurs et autres problèmes. Cette procédure peut être répétée à intervalles réguliers pour maintenir le niveau de qualité le plus élevé possible.

Différentes méthodologies sont possibles pour réaliser ces évaluations, comme le Data Quality Assessment Framework (DQAF), créé par la filiale de soins de santé du groupe UnitedHealth, Optum, afin de formaliser leur méthode d’évaluation de la qualité des données. Exhaustivité, actualité, validité, cohérence et intégrité, le DQAF formule des recommandations qui permettent de mesurer les dimensions de la qualité des données. Optum a mis les détails de son cadre de référence à disposition pour toute organisation ayant besoin d’un modèle.

Le FMI (Fonds monétaire international), qui supervise le système monétaire mondial et accorde des prêts aux pays en difficulté économique, a également défini sa propre méthodologie d’évaluation, appelée cadre d’évaluation de la qualité des données (CEQD). Ce cadre est axé sur plusieurs caractéristiques de la qualité des données, dont la précision, la fiabilité, la cohérence que le FMI exige des pays membres, lorsqu’ils lui soumettent des données statistiques.

Techniques et outils de gestion de la qualité des données

Les projets de gestion de la qualité des données comportent généralement plusieurs autres étapes. David Loshin, consultant en gestion des données, a par exemple décrit un cycle qui commence par l’identification et la mesure de l’impact des données de mauvaise qualité sur l’activité de l’entreprise. Ensuite, après avoir posé des règles de qualité des données, il convient de définir des objectifs de performance pour améliorer les indicateurs pertinents, puis de concevoir et mettre en œuvre des procédures d’amélioration spécifiques.

Il peut s’agir de nettoyer les données de fond en comble (« data scrubbing ») afin de corriger les erreurs, ou encore d’améliorer les jeux de données en ajoutant des valeurs manquantes, des informations actualisées ou des enregistrements supplémentaires. Les résultats sont ensuite contrôlés et comparés aux objectifs de performance. Toute anomalie restante constitue alors le point de départ d’une nouvelle série d’améliorations planifiées. Ce cycle vise à garantir que les efforts d’amélioration de la qualité globale se poursuivent à l’issue de chaque projet individuel.

Les outils logiciels spécialisés dans la gestion de la qualité des données peuvent établir des correspondances entre les enregistrements, supprimer les doublons, valider les nouvelles données, établir des politiques de remédiation et identifier les données personnelles dans un jeu de données ; ils effectuent également un profilage des données pour collecter des informations sur les jeux de données et identifier de potentielles valeurs aberrantes.

Les consoles de gestion des projets de qualité des données permettent de créer des règles de manipulation des données, d’identifier les relations entre les données et de transformer les données automatiquement, toutes opérations qui peuvent concourir au maintien de la qualité des données.

Les outils d’aide à la collaboration et à la gestion des flux de travail se sont également généralisés, proposant des vues partagées des référentiels de données de l’entreprise au responsable de la qualité et à l’« intendant » des données (data steward), chargés de superviser des jeux de données spécifiques.

Ces outils et processus d’amélioration de la qualité des données s’intègrent souvent à des programmes de gouvernance des données, qui font appel à des indicateurs de qualité pour démontrer la valeur des données aux entreprises, ainsi qu’à des projets de gestion des données de référence (MDM, Master Data Management) qui visent à créer des registres centraux des données de référence sur les clients, les produits et les chaînes d’approvisionnement.

De l’avantage de disposer de données de qualité

D’un point de vue financier, maintenir un haut niveau de qualité de leurs données permet aux organisations de payer moins cher pour identifier et corriger les données incorrectes dans leurs systèmes. Les entreprises peuvent également éviter les erreurs d’exploitation et les défaillances dans leurs processus métier, qui risqueraient d’augmenter leurs dépenses d’exploitation et de diminuer leur chiffre d’affaires.

Une bonne qualité des données augmente également la précision des applications analytiques, ce qui peut conduire à prendre de meilleures décisions propres à stimuler les ventes, à améliorer les procédures internes et à donner aux organisations un avantage concurrentiel.

Des données de qualité favorisent également l’usage de tableaux de bord d’intelligence décisionnelle et d’outils analytiques. Quand les données analytiques sont fiables, en effet, les utilisateurs seront plus enclins à les utiliser, plutôt qu’à prendre des décisions reposant uniquement sur leur instinct ou sur leurs propres calculs.

De plus, une gestion efficace de la qualité des données permet aux équipes concernées de se concentrer sur des tâches plus productives que le nettoyage des jeux de données. Elles peuvent alors consacrer plus de temps à aider les utilisateurs métier et les analystes des données à tirer profit des données disponibles dans les systèmes, ou encore à promouvoir de bonnes pratiques en matière de qualité des données dans les opérations métier afin de réduire les erreurs.

Les défis qui s’annoncent dans la qualité des données

Longtemps, les efforts en matière de qualité des données ont essentiellement porté sur les données structurées stockées dans des bases de données relationnelles, puisqu’il s’agissait de la technologie dominante de gestion des données. Mais la nature des problèmes liés à la qualité des données a évolué à mesure que les systèmes de Big Data et de cloud computing s’imposaient.

Les gestionnaires des données doivent de plus en plus s’intéresser à la qualité des données non structurées et semi-structurées, telles que les SMS, les enregistrements des parcours de navigation sur Internet, les données issues des capteurs et les fichiers journaux des réseaux, systèmes et applications.

L’usage croissant de l’intelligence artificielle (IA) et des applications d’apprentissage automatique complique encore les processus de gestion de la qualité des données dans les organisations. C’est vrai également de l’adoption des plateformes de streaming de données en temps réel qui déversent en permanence de grandes quantités de données dans les systèmes des entreprises. Qui plus est, il est désormais souvent nécessaire de gérer la qualité de données localisées à la fois sur site et dans le cloud.

Les exigences de qualité se renforcent également avec la mise en application de nouvelles lois de protection des données personnelles, en particulier le RGPD en Europe, et le CCPA (California Consumer Privacy Act) en Californie. Ces deux législations donnent à toute personne un droit d’accès aux données personnelles que les entreprises détiennent sur son compte, les organisations devant donc être capables de retrouver dans leurs systèmes toutes les informations concernant cette personne sans en oublier au passage en raison de données imprécises ou incohérentes.

Corriger les problèmes de qualité des données

Les responsables de la qualité des données, les analystes et les ingénieurs sont chargés au premier chef de corriger les erreurs dans les données et de résoudre tout autre problème lié à la qualité des données dans une organisation. Il leur incombe donc de dénicher et nettoyer les données incorrectes dans les bases ou référentiels de données, souvent avec l’aide d’autres experts en la matière, comme les data stewards et les responsables des programmes de gouvernance des données.

Une autre pratique courante consiste à impliquer les utilisateurs métier, les data scientists et les autres analystes dans la gestion de la qualité des données afin de réduire le nombre de problèmes de qualité dans les systèmes. La participation des différentes unités peut être obtenue en partie au travers de programmes de gouvernance des données et d’interactions avec les data stewards, souvent issus des divisions opérationnelles. Mais de nombreuses entreprises prévoient en sus, des programmes de formation sur les bonnes pratiques en matière de qualité des données à destination des utilisateurs finaux. Comme le répètent à l’envi les responsables des données, la qualité des données dans une organisation est l’affaire de tous.

Qualité et intégrité des données

On parle souvent de qualité de données et d’intégrité des données comme s’il s’agissait de concepts interchangeables ; à l’inverse, certains considèrent que l’intégrité des données n’est qu’une facette de la précision des données dans le processus de gestion de la qualité. Néanmoins, l’intégrité des données est vue comme une notion plus large faisant appel à des mécanismes de qualité, de gouvernance et de protection pour gérer de façon globale la précision, la cohérence et la sécurité des données.

Suivant ce point de vue, l’intégrité des données recouvre les aspects logique et physique. L’intégrité logique comprend des mesures de la qualité des données et des attributs des bases de données tels que l’intégrité des référentiels, dans le but de garantir la validité des éléments de données répartis dans les différentes tables. L’intégrité physique implique différentes mesures de sécurité, dont le contrôle d’accès, afin d’empêcher que les données soient modifiées ou corrompues par des utilisateurs non autorisés, mais également des dispositifs de sauvegarde et de reprise après désastre.

Cette définition a été mise à jour en mai 2020

Pour approfondir sur MDM - Gouvernance - Qualité

Close