Definition

Que sont les données synthétiques ? Exemples, cas d'utilisation et avantages

La collecte de données de haute qualité dans le monde réel est difficile, coûteuse et prend du temps. Cependant, la technologie des données synthétiques permet aux utilisateurs de générer rapidement, facilement et numériquement des données dans la quantité qu'ils souhaitent, adaptées à leurs besoins.

Les données synthétiques remontent à l'avènement de l'informatique dans les années 1970. La plupart des systèmes et algorithmes initiaux dépendaient des données pour fonctionner. Cependant, la capacité de traitement limitée, les difficultés liées à la collecte de vastes volumes de données et les préoccupations en matière de protection de la vie privée ont conduit à la création de données synthétiques.

Dans le sillage de la compétition ImageNet de 2012, communément appelée le Big Bang de l'intelligence artificielle (IA), Geoff Hinton a dirigé un groupe de chercheurs qui ont réussi à entraîner un réseau neuronal artificiel pour remporter un défi de classification d'images avec une marge étonnamment grande. Les chercheurs ont commencé à rechercher des données artificielles lorsqu'il a été révélé que les réseaux neuronaux pouvaient reconnaître des objets plus rapidement que les humains.

Pourquoi les données synthétiques sont-elles importantes ?

L'utilisation de données synthétiques est de plus en plus acceptée car elle peut offrir plusieurs avantages par rapport aux données réelles. Gartner prévoit que, d'ici 2030, les données synthétiques éclipseront les données réelles utilisées pour développer des modèles d'IA.

La plus grande application des données synthétiques est la formation des réseaux neuronaux et des modèles ML, car les développeurs ont besoin d'ensembles de données soigneusement étiquetés qui vont de quelques milliers à des dizaines de millions d'éléments. Les données synthétiques peuvent être générées artificiellement pour imiter les ensembles de données réels, ce qui permet aux entreprises de créer une grande quantité de données d'entraînement diverses sans dépenser beaucoup d'argent et de temps. Selon Paul Walborsky, cofondateur d'AI.Reverie, l'un des premiers services dédiés aux données synthétiques, aujourd'hui propriété de Meta, une simple image qui coûterait 6 dollars à un service d'étiquetage pourrait être générée artificiellement pour 6 cents.

Les données synthétiques sont également utilisées pour protéger la vie privée des utilisateurs et se conformer aux lois sur la protection de la vie privée, en particulier lorsqu'il s'agit de données sensibles sur la santé et les personnes. En outre, elles peuvent garantir que les clients ont accès à des données diverses qui décrivent fidèlement le monde réel, réduisant ainsi les biais dans les ensembles de données.

Comment les données synthétiques sont-elles générées ?

Le processus de génération de données synthétiques diffère selon les outils et les algorithmes utilisés et les cas d'utilisation spécifiques. Les trois techniques suivantes sont couramment utilisées pour créer des données synthétiques :

  1. Tirer des nombres d'une distribution. La sélection aléatoire de nombres à partir d'une distribution est une méthode courante pour créer des données synthétiques. Bien que cette méthode ne permette pas d'obtenir les mêmes informations que les données réelles, elle peut produire une distribution de données qui ressemble beaucoup à ces dernières.
  2. Modélisation à base d'agents. Cette technique de simulation consiste à créer des agents uniques qui communiquent entre eux. Ces méthodes sont particulièrement utiles lorsqu'il s'agit d'examiner comment différents agents - tels que des téléphones portables, des personnes et même des programmes informatiques - interagissent les uns avec les autres au sein d'un système complexe. À l'aide de composants de base préconstruits, les paquets Python tels que Mesa facilitent le développement rapide de modèles basés sur des agents et leur visualisation dans une interface basée sur un navigateur.
  3. Modèles génératifs. Ces algorithmes génèrent des données synthétiques qui reproduisent les propriétés ou caractéristiques statistiques des données réelles. Les modèles génératifs apprennent les modèles et les relations statistiques dans les données d'apprentissage et utilisent ensuite ces connaissances pour générer de nouvelles données synthétiques similaires aux données d'origine. Les réseaux adversaires génératifs et les autoencodeurs variationnels sont des exemples de modèles d'IA génératifs.
Le processus de formation des réseaux adversaires génératifs est une approche populaire pour la production de contenu généré par l'IA.

Quels sont les avantages des données synthétiques ?

Les données synthétiques offrent les avantages suivants :

  • Données personnalisables. Une organisation peut personnaliser les données synthétiques en fonction de ses besoins, en les adaptant à des conditions qui ne peuvent être obtenues avec des données authentiques. Elle peut également générer des ensembles de données à des fins de test de logiciels et d'assurance qualité des données pour les équipes DevOps.
  • Des données rentables. Les données synthétiques sont une alternative peu coûteuse aux données réelles. Par exemple, la collecte de données réelles sur les accidents de véhicules peut coûter plus cher à un constructeur automobile que celle de données simulées.
  • L'étiquetage des données. Même lorsque des données synthétiques sont disponibles, elles ne sont pas toujours étiquetées. Pour les tâches d'apprentissage supervisé, l'étiquetage manuel d'une multitude d'instances peut prendre beaucoup de temps et être source d'erreurs. Les données étiquetées synthétiquement peuvent accélérer le processus de développement des modèles. En outre, elles garantissent la précision de l'étiquetage.
  • Une production plus rapide. Les données synthétiques n'étant pas recueillies à partir d'événements réels, il est possible de créer un ensemble de données plus rapidement à l'aide du logiciel et de la technologie appropriés. Par conséquent, une quantité importante de données artificielles est créée dans un laps de temps plus court.
  • Annotation complète. Une annotation parfaite élimine la nécessité d'une collecte manuelle de données. Chaque objet d'une scène crée automatiquement une variété d'annotations. C'est l'une des principales raisons pour lesquelles les données synthétiques sont si peu coûteuses par rapport aux données réelles.
  • Confidentialité des données. Si les données synthétiques peuvent ressembler à des données réelles, elles ne doivent contenir aucune information susceptible d'être utilisée pour identifier les données réelles. Cette caractéristique rend les données synthétiques anonymes et adaptées à la diffusion et peut constituer un élément majeur de l'optimisation des données pour les secteurs de la santé et de l'industrie pharmaceutique.
  • Contrôle total par l'utilisateur. La simulation de données synthétiques permet un contrôle total sur tous les aspects. La personne qui manipule l'ensemble de données contrôle la fréquence des événements, la distribution des éléments et de nombreux autres facteurs. Les praticiens de la ML ont également le contrôle de l'ensemble des données lorsqu'ils utilisent des données synthétiques. Ils peuvent par exemple contrôler le degré de séparation des classes, la taille de l'échantillon et le niveau de bruit dans l'ensemble de données.

Les données synthétiques présentent également des inconvénients, notamment des incohérences lorsqu'il s'agit de reproduire la complexité de l'ensemble de données d'origine. Un autre défi est l'impossibilité de remplacer purement et simplement les données authentiques, car des données exactes et authentiques sont toujours nécessaires pour produire des exemples synthétiques utiles de l'information.

Quels sont les cas d'utilisation des données synthétiques ?

Les données synthétiques doivent refléter de manière appropriée les données originales qu'elles s'efforcent d'améliorer. Les cas d'utilisation typiques des données synthétiques sont les suivants :

  • Essais. Les données de test synthétiques sont plus faciles à créer que les données de test basées sur des règles et offrent flexibilité, évolutivité et réalisme. Elles sont essentielles pour les tests et le développement de logiciels fondés sur les données.
  • Entraînement de modèles d'IA et de ML. Les données synthétiques sont de plus en plus utilisées pour former les modèles d'IA. Elles sont souvent plus performantes que les données du monde réel et sont essentielles pour développer des modèles d'IA de qualité supérieure. Les données d'entraînement synthétiques améliorent les performances des modèles, en éliminant les biais et en apportant de nouvelles connaissances du domaine et des explications. Outre le fait qu'elles respectent totalement la vie privée, elles améliorent également les données d'origine grâce à la nature du processus de synthétisation alimenté par l'IA. Par exemple, dans les données d'entraînement artificielles, les modèles et les occurrences inhabituels peuvent être suréchantillonnés, c'est-à-dire que de nouvelles données sont ajoutées aux ensembles de données pour corriger les déséquilibres.
  • Réglementation en matière de protection de la vie privée. Les données synthétiques aident les analystes de données à respecter les lois sur la confidentialité des données, telles que le Health Insurance Portability and Accountability Act, le General Data Protection Regulation (règlement général sur la protection des données) et le California Consumer Privacy Act (loi californienne sur la protection des consommateurs). C'est également la meilleure option lorsque l'on utilise des ensembles de données sensibles à des fins de test ou de formation. Les données synthétiques permettent d'obtenir des informations sans compromettre le respect de la vie privée.
  • Données relatives à la santé et autres données privées. Les données relatives à la santé et à la vie privée se prêtent particulièrement bien à une approche synthétique, car les règles de protection de la vie privée imposent des restrictions importantes dans ces domaines. En utilisant des données synthétiques, les chercheurs peuvent extraire les informations dont ils ont besoin sans porter atteinte à la vie privée des personnes. Les données synthétiques ne représentant pas les données de patients réels, il est peu probable qu'elles aboutissent à l'identification d'un patient réel ou de son dossier de données personnelles. Les données synthétiques présentent également un avantage par rapport aux techniques de masquage des données, qui présentent des risques plus importants pour la vie privée.

Quels sont les exemples de données synthétiques ?

Les données synthétiques sont utilisées dans de nombreux secteurs d'activité pour divers cas d'utilisation. Voici quelques exemples d'applications de données synthétiques :

  • Données médiatiques. Dans ce cas d'utilisation, les algorithmes d'infographie et de traitement d'images sont utilisés pour générer des images, du son et des vidéos synthétiques. Par exemple, Amazon utilise des données synthétiques pour former le système linguistique d'Amazon Alexa.
  • Données textuelles. Il peut s'agir de chatbots, d'algorithmes de traduction automatique et d'analyses sentimentales basées sur des données textuelles générées artificiellement. ChatGPT est un exemple d'outil qui utilise des données textuelles.
  • Données tabulaires. Il s'agit de tableaux de données générés synthétiquement et utilisés pour l'analyse des données, l'apprentissage de modèles et d'autres applications.
  • Données non structurées. Les données non structurées peuvent inclure des images, des vidéos et des données audio qui sont principalement utilisées dans des domaines tels que la vision artificielle, la reconnaissance vocale et la technologie des véhicules autonomes. Par exemple, Waymo de Google utilise des données synthétiques pour entraîner ses voitures autonomes.
  • Données sur les services financiers. Le secteur financier fait largement appel aux données synthétiques pour la prévention de la fraude, la gestion des risques et l'évaluation du risque de crédit. Par exemple, American Express utilise des données financières synthétiques pour améliorer la détection des fraudes.
  • Données de fabrication. L'industrie manufacturière utilise des données synthétiques pour les tests de contrôle de la qualité et la maintenance prédictive. Par exemple, la compagnie d'assurance allemande Provinzial teste les données synthétiques à des fins d'analyse prédictive.

Exemples réels de données synthétiques dans l'industrie

Les services financiers et les soins de santé sont deux secteurs qui utilisent des techniques de données synthétiques pour fabriquer des données dont les attributs sont similaires à ceux des données sensibles ou réglementées. Cela permet aux professionnels des données d'utiliser et de partager les données plus librement.

Par exemple, les professionnels de la santé utilisent des données synthétiques pour permettre l'utilisation publique de données d'archives tout en préservant la confidentialité des patients.

Dans le secteur financier, les ensembles de données synthétiques - tels que les paiements par carte de débit et de crédit - ressemblent à des données de transaction typiques et se comportent comme telles, ce qui permet de mettre en évidence les activités frauduleuses. Les scientifiques des données peuvent utiliser des données synthétiques pour tester ou évaluer les systèmes de détection des fraudes, ainsi que pour développer de nouvelles méthodes de détection des fraudes. Les ensembles de données financières synthétiques sont disponibles sur Kaggle, une plateforme participative qui organise des concours de modélisation prédictive et d'analyse.

Les équipes DevOps utilisent des données synthétiques pour les tests de logiciels et l'assurance qualité. Elles peuvent intégrer des données générées artificiellement dans un processus sans retirer les données authentiques de la production. Cependant, certains experts recommandent aux équipes DevOps de choisir des techniques de masquage des données plutôt que des techniques de données synthétiques, car les ensembles de données de production contiennent des relations complexes qui rendent difficile la fabrication d'une représentation exacte rapidement et à moindre coût.

Données réelles ou fictives

Les données réelles et fictives diffèrent des données synthétiques par la manière dont elles sont utilisées et générées.

Données réelles

Les données réelles sont la meilleure option pour entraîner les modèles à faire des prédictions efficaces. Cependant, les données réelles ne sont pas toujours disponibles pour les entreprises qui ont besoin de données d'entraînement. De plus, l'entraînement d'un modèle avec des données réelles contenant des informations sensibles peut constituer une violation des réglementations en matière de confidentialité des données. Les données synthétiques qui reproduisent fidèlement les données réelles servent de substitut lorsque les données réelles font défaut et permettent d'éviter les problèmes liés aux données sensibles.

Données fictives

Les ensembles de données fictifs sont créés à l'aide de simples valeurs de remplacement et ne sont pas censés posséder les propriétés ou les connaissances des ensembles de données réels. Ils ne nécessitent pas d'outils complexes, tels que les réseaux neuronaux, pour les générer.

Un data scientist expérimenté peut facilement créer des données fictives pour tester et entraîner des prototypes de modèles afin de vérifier si les versions réelles du modèle fonctionneront correctement. Il n'est pas nécessaire de disposer de données et de relations complexes entre les points de données, et des ensembles de données fictives avec des valeurs fictives sont suffisants.

Données synthétiques et apprentissage automatique

Les données synthétiques gagnent du terrain dans le domaine de l'apprentissage automatique. Les algorithmes d'apprentissage automatique sont formés à l'aide d'une immense quantité de données, et la collecte de la quantité nécessaire de données d'apprentissage étiquetées peut être prohibitive en termes de coûts.

Les données générées synthétiquement aident les entreprises et les chercheurs à constituer les référentiels de données nécessaires à l'entraînement, voire au pré-entraînement, des modèles de ML. Cette technique est appelée apprentissage par transfert.

Des efforts de recherche en science des données sont en cours pour faire progresser l'utilisation des données synthétiques dans le domaine de la biologie moléculaire. Par exemple, les membres du Data to AI Lab du Massachusetts Institute of Technology ont documenté les succès obtenus avec son Synthetic Data Vault. Il permet de construire des modèles d'apprentissage automatique pour générer et extraire automatiquement leurs propres données synthétiques.

Les entreprises expérimentent également des techniques de données synthétiques. Par exemple, Google Deepmind a utilisé des données synthétiques pour entraîner un système d'IA appelé AlphaGeometry à résoudre des problèmes de géométrie complexes. La vision artificielle, la reconnaissance d'images et la robotique sont d'autres applications qui bénéficient de l'utilisation de données synthétiques.

Outils et technologies de données synthétiques

Alors que l'utilisation de modèles d'IA se développe dans diverses industries, le marché des outils de génération de données synthétiques croît également. Différents outils sont disponibles.

Les entreprises peuvent également utiliser diverses méthodes et outils pour créer leurs propres données synthétiques. Ces méthodes sont notamment les suivantes :

  • Grands modèles linguistiques. Les organisations peuvent former des LLM, tels que les modèles GPT, en utilisant leurs propres ensembles de données pour créer des données synthétiques.
  • Réseaux adversaires génératifs. L'approche GAN implique deux réseaux neuronaux : un réseau génératif et un réseau discriminatif. Le réseau génératif est entraîné à générer des données synthétiques mais réalistes, et le réseau discriminatif tente de distinguer les données réelles des données synthétiques. Le réseau génératif s'améliore continuellement pour générer des données réalistes lorsqu'il tente de tromper le réseau discriminatif.
  • Autoencodeurs variationnels. Les VAE prennent des ensembles de données réelles, les encodent dans un format compressé et les décodent ensuite en ensembles de données synthétiques qui imitent les caractéristiques des ensembles de données réelles.
  • Distribution statistique. Si les scientifiques des données comprennent la distribution statistique d'un ensemble de données réelles, ils peuvent créer manuellement un ensemble de données synthétiques similaire sans utiliser d'autres outils.

L'apprentissage automatique peut utiliser des données synthétiques pour éliminer les biais, démocratiser les données, améliorer la confidentialité et réduire les coûts. 

Pour approfondir sur IA appliquée, GenAI, IA infusée