Qu'est-ce que le filigrane IA (AI Watermarking) ?
Le filigrane (watermarking) d'intelligence artificielle consiste à intégrer un signal unique et reconnaissable dans les résultats d'un modèle d'intelligence artificielle, tel qu'un texte ou une image, afin d'identifier ce contenu comme étant généré par l'intelligence artificielle. Ce signal, appelé filigrane, peut ensuite être détecté par des algorithmes conçus pour le rechercher.
Idéalement, un filigrane d'IA devrait être invisible à l'œil nu, mais extractible à l'aide d'un logiciel ou d'algorithmes spécialisés. Un modèle génératif d'IA qui intègre le filigrane peut être utilisé comme n'importe quel autre modèle, mais la sortie du modèle indiquera explicitement qu'il a été créé à l'aide de l'IA. Un filigrane efficace pour l'IA doit également éviter d'altérer les performances du modèle, résister aux tentatives de falsification, de suppression ou de modification, et être compatible avec toute une série d'architectures de modèles.
Le filigrane d'IA est une technique relativement nouvelle qui a connu un regain d'intérêt à la suite de l'apparition de générateurs de textes et d'images destinés au grand public, qui ont rendu beaucoup plus facile la création de contenus crédibles à l'aide de l'IA. En mars 2023, par exemple, une image du pape portant une veste blanche a été créée à l'aide du générateur d'images Midjourney et est devenue virale sur les médias sociaux, où de nombreux utilisateurs ont cru à l'authenticité de l'image.
Bien que cet exemple soit relativement bénin, la capacité de diffuser largement un contenu de haute qualité produit par l'IA générative soulève des préoccupations plus larges concernant les médias manipulés par l'IA. Par exemple, les images générées par l'IA pourraient être utilisées pour diffuser des informations politiques erronées et créer des "deepfakes", tandis que les textes générés par l'IA pourraient aider des acteurs malveillants à mener des campagnes de phishing et des escroqueries à plus grande échelle. Alors que les systèmes d'IA deviennent capables de produire des résultats de plus en plus convaincants et que les médias générés par l'IA deviennent de plus en plus répandus en ligne, les chercheurs étudient comment utiliser des signaux cachés pour indiquer au public l'origine de ce contenu.
Comment fonctionne le filigrane d'IA
Le processus de filigrane de l'IA comporte deux étapes : l'encodage du filigrane pendant l'apprentissage du modèle et la détection du filigrane après la génération du résultat.
Les filigranes d'IA sont créés pendant la formation du modèle en apprenant à ce dernier à intégrer un signal ou un identifiant spécifique dans le contenu généré - par exemple, un filigrane textuel caché dans une phrase générée par un grand modèle de langage (LLM) ou un filigrane visuel dissimulé dans la sortie d'un générateur d'images. Ce processus implique généralement d'apporter des modifications subtiles au modèle au cours de la phase d'apprentissage, telles que des modifications des poids ou des caractéristiques du modèle.
Après la formation et le déploiement du modèle, des algorithmes spécialisés détectent la présence du filigrane incorporé précédemment, vérifiant ainsi si un média a été généré par l'IA. Par exemple, un algorithme peut rechercher la présence de phrases rares ou analyser les pixels d'une image pour détecter des motifs cachés.
Prenons l'exemple d'une technique de filigrane proposée par Scott Aaronson, informaticien et chercheur à l'OpenAI. Un LLM tel que le GPT-4 de l'OpenAI génère des résultats en prédisant le prochain jeton - un terme de traitement du langage naturel faisant référence à une courte unité de texte, telle qu'un mot, une syllabe ou un signe de ponctuation - sur la base des jetons précédents. Chaque candidat à l'expression suivante se voit attribuer un score de probabilité indiquant la probabilité qu'il vienne ensuite.
Normalement, le modèle sélectionne au hasard le jeton suivant sur la base de ces scores de probabilité. Mais pour créer un filigrane d'IA, le modèle pourrait utiliser une fonction cryptographique dont la clé privée n'est accessible qu'aux développeurs du modèle. Par exemple, le système pourrait être plus enclin à choisir certains mots rares ou certaines séquences de jetons qu'un humain aurait peu de chances de reproduire.
La présence de ces mots et phrases rares fonctionnerait alors comme un filigrane. Pour l'utilisateur final, le texte produit par le modèle semblerait toujours généré de manière aléatoire. Toutefois, une personne possédant la clé cryptographique pourrait analyser le texte pour révéler le filigrane caché en fonction de la fréquence d'apparition des biais encodés.
Des techniques similaires pourraient théoriquement être mises en œuvre pour filigraner les images. Par exemple, les développeurs de modèles pourraient modifier certains poids dans les premières couches des réseaux neuronaux convolutifs pour coder un bruit qui fonctionne comme un filigrane ou inclure des images filigranées dans les données d'apprentissage de sorte que la sortie du modèle hérite de ces marqueurs.
Les avantages du filigrane d'IA
Le filigrane des contenus générés par l'IA présente plusieurs avantages :
- Empêcher la diffusion de fausses informations générées par l'IA. Les réseaux de médias sociaux, les organismes d'information et d'autres plateformes en ligne pourraient utiliser des filigranes d'IA pour indiquer aux lecteurs qu'un contenu a été créé à l'aide de l'IA. L'ajout d'un label de non-responsabilité à un post Instagram contenant une image générée par l'IA pourrait contribuer à contrecarrer les tentatives de diffusion de la désinformation, par exemple.
- Indiquer l'auteur. Comme les filigranes permettent de retracer le contenu en ligne jusqu'à un créateur spécifique, ils sont utiles pour signaler les productions de l'IA telles que les vidéos "deepfake" et les livres rédigés par des robots. Cela pourrait limiter la diffusion de contenus frauduleux en aidant les créateurs à prouver que leur nom ou leur image a été utilisé de manière trompeuse.
- Établir l'authenticité. À l'instar d'un filigrane physique sur une monnaie de papier, les filigranes de l'IA servent de signatures numériques qui peuvent démontrer la provenance, ou l'origine d'un média. Cela pourrait être utile dans des contextes tels que les enquêtes scientifiques ou les procédures judiciaires, où les résultats de recherche ou les preuves pourraient être scannés à la recherche de filigranes d'IA afin d'en évaluer l'intégrité.
Les limites des techniques actuelles de filigrane d'IA
Malheureusement, les techniques actuelles de filigrane par l'IA ne sont pas fiables et sont relativement faciles à contourner. En janvier 2023, par exemple, l'OpenAI a lancé un détecteur de texte IA pour ChatGPT développé par Aaronson et d'autres chercheurs de l'OpenAI. Six mois plus tard, l'OpenAI a retiré l'outil de classification de l'IA en invoquant son "faible taux de précision".
La mise au point de filigranes persistants pour l'IA, que même des pirates déterminés ne peuvent pas éliminer, reste un problème de recherche ouvert. Un problème important est que les filigranes sont souvent faciles à supprimer, en particulier dans les textes. Par exemple, les stratégies de filigrane textuel qui consistent à accentuer légèrement certains mots ou à utiliser des motifs spécifiques peuvent être surmontées simplement par l'édition humaine du texte généré par l'IA.
Il y a aussi le problème des faux positifs, c'est-à-dire l'identification incorrecte d'un média créé par l'homme comme étant le produit de l'IA. Des acteurs malveillants pourraient déclencher un faux positif en ajoutant un filigrane à une image réelle afin d'instiller le doute quant à son authenticité. Les faux positifs peuvent également résulter d'un hasard si une image ou un passage de texte imite les caractéristiques d'un filigrane particulier, ce qui donne lieu à des accusations injustes de plagiat ou de tromperie.
D'autres techniques de filigrane pourraient ne fonctionner que pour des ensembles de données spécifiques, montrant des limites pour des modèles finement ajustés. Il reste des défis à relever pour garantir la persistance des filigranes entre les versions et les applications des modèles ; la création de techniques de filigrane flexibles pouvant être appliquées à toutes les architectures de modèles devrait également s'avérer difficile.
Enfin, la recherche d'un juste équilibre en matière de détectabilité des filigranes constitue un autre obstacle. Inclure trop de données modifiées dans l'ensemble d'apprentissage ou modifier les poids et les caractéristiques d'un modèle de manière trop agressive au cours de l'apprentissage peut dégrader la précision globale du modèle. De même, un filigrane trop évident pourrait rendre inutile le contenu généré par l'IA - par exemple, un texte en filigrane dont la sonorité n'est pas du tout naturelle en raison d'une forte accentuation des mots rares et des schémas syntaxiques. À l'inverse, les filigranes plus subtils sont plus vulnérables à la falsification et risquent d'être trop faibles pour que les détecteurs les remarquent.
Même si ces limites pratiques sont surmontées, la généralisation du filigrane de l'IA pourrait également soulever des problèmes éthiques. En effet, l'intégration de filigranes uniques dans les contenus générés par l'IA pourrait compromettre la vie privée des utilisateurs en permettant de suivre l'utilisation des outils d'IA générative par le biais du filigrane.
