IA de confiance : le mode d’emploi de la CNIL
Outre l’AI Act, les concepteurs de systèmes d’intelligence artificielle (y compris générative) doivent se conformer au RGPD si des données personnelles sont utilisées. Pour encadrer les développements IA et l’usage de ces données, la CNIL dresse une liste des premières règles du jeu à respecter.
L’AI Act, le règlement européen sur l’intelligence artificielle adopté en avril par les eurodéputés, constitue un domaine d’intérêt pour les entreprises, dont Microsoft et OpenAI, mais également pour le gendarme français des données personnelles.
L’IA figure en effet parmi les compétences de la CNIL. Dans la perspective de l’entrée en vigueur de l’AI Act en 2026, l’autorité avait d’ailleurs entamé sa mission dès 2023 au travers de la création d’un service de l’intelligence artificielle.
Concilier innovation et respect des droits des personnes
En mai de l’année dernière toujours, la CNIL publiait son « plan IA ». Plus récemment, en avril 2024, le régulateur apportait des clarifications, complétées de nouveau ce 10 juin. L’objectif : répondre aux questionnements concernant l’application du RGPD à l’IA, « en particulier depuis l’émergence de systèmes d’IA génératives. »
Concrètement, la réponse de l’autorité indépendante prend la forme de deux séries de recommandations visant à « aider les professionnels à concilier innovation et respect des droits des personnes. » D’autres suivront, annonce-t-elle d’ores et déjà.
La CNIL profite en outre pour tacler une « idée reçue » opposant RGPD et innovation en IA en Europe.
Ces premières préconisations permettent aux développeurs d’engager leurs démarches de mise en conformité, en complément des initiatives à entreprendre dans le cadre de l’AI Act. En effet, dès lors que des données personnelles sont utilisées, « le RGPD et le règlement sur l’IA s’appliquent tous les deux. »
Une démarche en 7 phases
Sont dès lors potentiellement concernés tous les types d’IA, qu’il s’agisse de machine learning, d’IA à usage général, ou de systèmes dont l’apprentissage est réalisé une fois ou de façon continue. Le combo RGPD + AI Act s’applique à partir du moment où des données personnelles sont utilisées.
Pour assurer la conformité, les recommandations de la CNIL portent par ailleurs sur l’ensemble du cycle de développement des systèmes d’IA. Le déploiement, lui, est exclu. Le travail pour les éditeurs n’en demeure pas moins conséquent. Sont concernés : la conception du système, la constitution de la base de données et l’apprentissage.
Afin d’accompagner la mise en conformité des IA, le régulateur propose une démarche en sept phases. La première porte sur la définition de l’objectif ou finalité du système d’IA. La finalité « permet de cadrer et de limiter les données personnelles que l’on va pouvoir utiliser pour l’entraînement. »
Et attention, l’objectif doit être établi dès la définition du projet et être explicite (soit « connu et compréhensible »). Il doit enfin « être légitime », « c’est-à-dire compatible avec les missions de l’organisme. » Voilà pour la théorie. Dans la pratique, trois types de situations peuvent se présenter.
Le plus simple : l’usage opérationnel est clair et correspond alors à la finalité. Pour les systèmes d’IA à usage général, c’est plus compliqué. Cependant, la finalité ne pourra pas être simplement définie de « manière trop générale ».
Seront notamment précisées la typologie d’IA (computer vision, GenAI, etc.), les fonctionnalités et les capacités techniquement envisageables. En matière de bonnes pratiques, la CNIL recommande d’ailleurs de « donner encore plus de précisions quant à l’objectif poursuivi », par exemple en déterminant les capacités prévisibles les plus à risque, ou les fonctionnalités exclues by design.
Les IA développées à des fins de recherche scientifique constituent une autre configuration. Dans ce cas, l’objectif peut être moins détaillé « compte tenu des difficultés à le définir précisément dès le début de vos travaux. »
À chaque rôle ses responsabilités et obligations
La deuxième étape concerne les responsabilités. Au sens du RGPD, une organisation relève du statut de responsable de traitement (RT) ou de celui de sous-traitant (ST). L’AI Act intègre cependant d’autres rôles : fournisseur, importateur, distributeur et utilisateur (ou déployeur). La détermination du degré de responsabilité s’effectue au cas par cas.
« Si vous êtes un fournisseur à l’initiative du développement d’un système d’IA et que vous constituez la base de données d’apprentissage à partir de données que vous avez sélectionnées pour votre propre compte, vous pouvez être qualifié de responsable de traitement », mentionne par exemple la CNIL.
En fonction du résultat de cette analyse de responsabilité, les obligations varient. Il incombe ainsi au sous-traitant des devoirs tels que de disposer d’un contrat de sous-traitance de données personnelles conforme à la réglementation, ou de respecter strictement les instructions du responsable de traitement.
D’autres étapes de conformité attendent ensuite le responsable et le sous-traitant. Celles-ci sont calquées sur le modèle du RGPD. Les recommandations de la CNIL en matière d’IA englobent ainsi la définition de la base légale et de la durée de conservation des données, le recueil du consentement, le respect du principe de minimisation, et la réalisation d’une analyse (AIPD).
En matière de développement des systèmes à haut risque, l’AIPD tient d’ailleurs moins de la recommandation que de l’obligation. Pour ces IA visées par l’AI Act, la CNIL considère l’analyse d’impact comme un « principe nécessaire. »
Les concepteurs de solutions d’IA sont encouragés à se saisir dès à présent des préconisations définies par l’autorité sous forme de fiches. D’autres suivront au cours des « prochains mois », informe-t-elle.
Soumises à consultation publique, elles encadreront notamment l’entraînement « RGPD-compatible » de modèles, la récupération (scraping) de données sur internet, ou encore l’exercice des droits d’accès, de rectification et d’effacement.
Recommandations de la CNIL : deuxième round
Le régulateur l’annonçait en avril : d’autres préconisations pour encadrer les systèmes d’IA seraient publiées et soumises à consultation. Cette déclaration a été suivie d’effets le 10 juin 2024. L’objectif demeure inchangé : « garantir des développements conciliables avec les enjeux de protection de la vie privée ».
Au travers de cette deuxième série de recommandations, la CNIL traite ou approfondit les sept thématiques. Dont, en bonne place, celui de l’intérêt légitime. Ce point est majeur. L’intérêt légitime est souvent invoqué pour justifier du moissonnage de données sur internet.
Les concepteurs de modèles d’IA générative sont des adeptes du web scraping. La pratique « s’est fortement développée », observe l’autorité. Le moissonnage n’est pas sans conséquences puisque « toutes les données publiées en ligne par une personne sont désormais susceptibles d’être lues, collectées et réutilisées par des tiers ».
Mais à strictement parler, le scraping ne fait pas l’objet « d’un encadrement juridique spécifique ». Les responsables de traitements sont néanmoins encouragés à respecter certaines obligations et conditions – comme d’exclure des catégories de données personnelles via des filtres.
En tout, 7 fiches ont été publiées par la CNIL et ouvertes à une nouvelle consultation publique :
- Base légale de l’intérêt légitime et développement de systèmes d’IA
- Intérêt légitime : focus sur la diffusion des modèles en source ouverte (open source)
- Intérêt légitime : focus sur le moissonnage (web scraping)
- Informer les personnes concernées
- Respecter et faciliter l’exercice des droits des personnes concernées
- Annoter les données
- Garantir la sécurité du développement d’un système d’IA
En parallèle, le régulateur a mis en ligne un questionnaire concernant les données d’entraînement, qui sont susceptibles de contenir des informations personnelles.
Les acteurs concernés, utilisateurs ou fournisseurs, sont aussi consultés. Le but : « apporter leurs éclairages sur les conditions dans lesquelles les modèles d’IA peuvent être considérés comme anonymes ou doivent être encadrés par le RGPD », ainsi que sur les conséquences d’une telle qualification..