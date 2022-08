La gestion réglementaire des données continue de poser un problème aux entreprises. Selon une analyse d’Atlas VPN issue du projet Enforcement Tracker, les sociétés auraient payé plus de 97 millions d’euros d’amendes pour non-respect du RGPD rien qu’au premier semestre 2022.

Si certains usages des données privées des citoyens européens s’avèrent intentionnellement délictueux, les entreprises « ne sont pas égales » concernant l’application du RGPD, observait le conseil général de l’économie en 2019.

Selon Data Legal Drive, les contraintes budgétaires et temporelles des entreprises pèsent sur la gouvernance des données.

Plusieurs articles de recherche mettent en évidence le manque de connaissances ou de formations des développeurs au regard de l’application du RGPD dès le lancement du projet. D’où la multiplication de guides de bonnes pratiques, comme celui de la CNIL.

En parallèle, les fuites de données de masse se poursuivent. IBM a étudié 550 fuites provoquées par différentes cyberattaques. En 2021, elles auraient coûté en moyenne 4,35 millions de dollars aux entreprises concernées, contre 4,24 millions de dollars l’année précédente. Parmi les vecteurs les plus courants, IBM note que 19 % des attaques sont causées par le vol d’authentifiants, 15 % par un problème de configuration dans le cloud, 16 % par le phishing. Enfin, 13 % des incidents sont dus à une vulnérabilité dans un logiciel tiers.

Trop de données de production dans les environnements de test Certains vols de données surviennent parce que les secrets des environnements de test sont mal protégés. En effet, il n’est pas rare que les développeurs clonent des données de production au sein de leurs instances. Malgré les risques encourus, l’utilisation des données de production en phase de développement demeure attrayante. Elle est synonyme de gain de temps : les développeurs n’ont pas à créer de nouveaux jeux de données. Ils peuvent tester plus aisément les problèmes qu’ils rencontreront plus tard dans le « monde réel ». Pour les data scientists, l’intérêt est similaire : la promesse est d’obtenir des modèles de prédiction plus précis au regard des cas d’usage attendus. Or, cette pratique est fortement découragée tant en matière de gouvernance que de sécurité des données. Pour ne pas tomber dans cet écueil, de plus en plus souvent les équipes de développement s’appuient sur des jeux de données ou des tables dont certaines valeurs sont obfusquées, voire chiffrées. Dans d’autres cas, ils n’ont accès qu’à un sous-ensemble d’une base de données plus vaste. Selon Khalid Boudjaa, CEO et CTO de l’ESN Cloud Innovation Partners, cette approche demeure risquée. « L’on se donne bonne conscience en chiffrant certaines données sensibles, mais le chiffrement peut être brisé », déplore-t-il. « Aussi, si l’on anonymise le prénom et le nom d’une personne, cette information peut se trouver dans son mail », poursuit-il. « Il n’est pas rare d’oublier certains champs quand une table contient plusieurs centaines d’attributs ».

CloudTDMS, une plateforme pour gérer les données synthétiques Même si certains clients de Cloud Innovation Partners le réclament encore, l’ESN n’encourage pas cette pratique. « Masquer les données, nous ne le recommandons pas. Les projets en développement ne doivent jamais accéder aux vraies données, que ça soit en interne ou en externe », affirme Khalid Boudjaa. « Les projets en développement ne doivent jamais accéder aux vraies données, que ça soit en interne ou en externe ». Khalid BoudjaaCEO et fondateur, Cloud Innovation Partners La solution se trouverait dans la génération et l’utilisation de données synthétiques. Comme l’appellation l’indique, il s’agit d’automatiser la création de « fausses » données par un algorithme au lieu d’utiliser des informations de production ou opérationnelles. Cette approche est de plus en plus courante dans le cadre de projet de data science, car les modèles de machine learning et de deep learning requièrent des volumes de données importants lors de leur entraînement. « Les données synthétiques permettent d’obtenir la masse nécessaire au projet Big Data, de varier les cas d’usage ou de mettre en œuvre des simulations », vante le CEO. « Gartner prédit que d’ici à 2024, 60 % des données utilisées pour le développement des projets d’IA et d’analytiques seront synthétiques. Nous, nous pensons que ce ratio tournera autour des 50 % ». Khalid Boudjaa suggère que tous projets de développement devraient utiliser ces « fausses » données. C’est d’ailleurs pour cette raison que Cloud Innovation Partners a lancé la startup et la solution SaaS CloudTDMS (pour Test Data Management System). Développée depuis 2019 et lancée en juillet 2022, la plateforme no-code doit permettre d’administrer la génération de données synthétiques conformes aux réglementations en vigueur au sein des entreprises. Comme les outils plus traditionnels tels que Test Data Management d’Informatica et IBM InfoSphere, l’outil établit un profilage des données existantes, les masque et identifie les modèles associés. Cependant, l’implémentation SaaS de CloudTDMS permettrait d’accélérer ces tâches et de générer des données synthétiques. « La découverte d’environ 85 % des données prend quelques dizaines de secondes, tandis que notre algorithme peut générer un jeu de données en moins de dix secondes dans le meilleur des cas », assure Khalid Boudjaa. Une fois les données créées, l’outil permet de les réinjecter dans les environnements de test ou de data science. Techniquement, CloudTDMS reprend les grands principes d’un ETL. Il s’appuie sur le projet open source Airflow, un orchestrateur de flux de données exprimés en graphes orientés acycliques (DAG). Un portail front-end permet de paramétrer les workflows de génération de données, de les planifier et d’éditer les modèles de données. Si certains cas d’usage réclament d’obtenir des jeux de données parfaits, souvent difficiles à maintenir dans la vie réelle, CloudTDMS dispose d’une fonction pour configurer la qualité des données attendues. Ainsi, l’outil peut générer des erreurs dans les enregistrements afin de tester les performances d’une application. Il est également possible de simuler le comportement d’utilisateurs en créant de nouveaux enregistrements.