Qu'est-ce que le "red teaming" de l'IA ?
Le red teaming de L'IA consiste à simuler des scénarios d'attaque sur une application d'intelligence artificielle afin d'identifier les faiblesses et de planifier des mesures préventives. Ce processus permet de protéger le modèle d'intelligence artificielle contre toute une série de tactiques d'infiltration possibles et de problèmes de fonctionnalité.
Ces dernières années ont vu l'utilisation de l'IA monter en flèche dans les entreprises, avec l'intégration rapide de nouvelles applications d'IA dans les environnements informatiques des organisations. Cette croissance, associée à l'évolution rapide de l'IA, a engendré des risques importants pour la sécurité. Les outils et systèmes d'IA, en particulier l'IA générative et l'IA open source, présentent de nouvelles surfaces d'attaque pour les acteurs malveillants. Sans évaluations de sécurité approfondies, les modèles d'IA peuvent produire des contenus nuisibles ou contraires à l'éthique, relayer des informations incorrectes et exposer les entreprises à des risques de cybersécurité.
Pour lutter contre ces problèmes de sécurité, les organisations adoptent une tactique de sécurité qui a fait ses preuves : le red teaming. Issu du red teaming traditionnel et de l'apprentissage automatique antagoniste, le red teaming de l'IA consiste à simuler des cyberattaques et des infiltrations malveillantes pour trouver des lacunes dans la couverture de sécurité de l'IA et des faiblesses fonctionnelles. Compte tenu des vastes surfaces d'attaque et de la nature adaptative des applications de l'IA, le red teaming de l'IA implique un éventail de types de simulation d'attaques et de meilleures pratiques.
Histoire du red teaming
Le terme "red teaming" remonte à l'époque de la guerre froide aux États-Unis, lorsqu'il a été utilisé pour la première fois pour décrire des exercices militaires stratégiques entre un adversaire simulé (l'équipe rouge) et une équipe de défense (l'équipe bleue). L'équipe rouge tentait des techniques d'infiltration, ou des attaques, contre l'équipe bleue afin d'aider les services de renseignement militaire à évaluer les stratégies et à identifier les faiblesses éventuelles.
Dans les décennies qui ont suivi, le terme "red teaming" s'est généralisé dans de nombreux secteurs d'activité pour désigner le processus d'identification des lacunes et des faiblesses en matière de renseignement. Les milieux de la cybersécurité ont adopté ce terme pour décrire la pratique stratégique consistant à demander à des pirates informatiques de simuler des attaques sur des systèmes technologiques afin de trouver des failles de sécurité. Les résultats d'une infiltration simulée sont ensuite utilisés pour concevoir des mesures préventives susceptibles de réduire la vulnérabilité d'un système aux attaques.
Les attaques traditionnelles de type "red teaming" sont généralement des simulations ponctuelles menées à l'insu de l'équipe de sécurité et axées sur un objectif unique. L'équipe rouge attaque le système à un point d'infiltration spécifique, généralement avec un objectif clair en tête et une compréhension du problème de sécurité spécifique qu'elle espère évaluer.
En quoi le red teaming en matière d'IA diffère-t-il du red teaming traditionnel ?
Comme le red teaming traditionnel, le red teaming IA consiste à infiltrer les applications IA pour identifier leurs vulnérabilités et les domaines dans lesquels la sécurité peut être améliorée. Cependant, l'AI red teaming diffère du red teaming traditionnel en raison de la complexité des applications d'IA, qui nécessitent un ensemble unique de pratiques et de considérations.
Les technologies de l'IA sont en constante évolution et les nouvelles itérations des applications s'accompagnent de nouveaux risques que les organisations doivent découvrir. La nature dynamique de la technologie de l'IA nécessite une approche créative de la part des équipes rouges de l'IA. De nombreux systèmes d'IA - des outils d'IA générative tels que les grands modèles de langage (LLM), par exemple - apprennent et s'adaptent au fil du temps et fonctionnent souvent comme des "boîtes noires". Cela signifie que la réponse d'un système d'IA à des tentatives similaires de red teaming peut changer avec le temps, et le dépannage peut être difficile lorsque les données d'apprentissage du modèle sont cachées aux red teamers.
Le red teaming de l'IA est souvent plus complet que le red teaming traditionnel, impliquant divers types d'attaques à travers un large éventail de points d'infiltration. L'équipe rouge de l'IA peut cibler l'IA au niveau fondamental - par exemple, un LLM comme Generative Pre-Trained Transformer 4, communément appelé GPT-4 - jusqu'au niveau du système ou de l'application. Contrairement à l'équipe rouge traditionnelle, qui se concentre principalement sur les attaques intentionnelles et malveillantes, l'équipe rouge de l'IA s'attaque également aux vulnérabilités aléatoires ou accidentelles, telles qu'un LLM donnant des informations incorrectes et nuisibles en raison d'une hallucination.
Types de "red teaming" en matière d'IA
Le red teaming de l'IA implique un large éventail de méthodes d'attaques adverses pour découvrir les faiblesses des systèmes d'IA. Les stratégies de red teaming de l'IA comprennent, sans s'y limiter, les types d'attaques suivants :
- Attaques par porte dérobée. Au cours de l'apprentissage d'un modèle, des acteurs malveillants peuvent insérer une porte dérobée cachée dans un modèle d'IA afin de l'infiltrer ultérieurement. Les équipes rouges de l'IA peuvent simuler des attaques par porte dérobée déclenchées par des prompts, des instructions ou des démonstrations spécifiques. Lorsque le modèle d'IA est déclenché par une instruction ou une commande spécifique, il peut agir de manière inattendue et éventuellement préjudiciable.
- Empoisonnement des données. Les attaques par empoisonnement des données se produisent lorsque les acteurs de la menace compromettent l'intégrité des données en insérant des données incorrectes ou malveillantes qu'ils peuvent ensuite exploiter. Lorsque les équipes d'intelligence artificielle effectuent des simulations d'empoisonnement des données, elles peuvent déterminer la vulnérabilité d'un modèle à ce type d'exploitation et améliorer sa capacité à fonctionner même avec des données d'entraînement incomplètes ou confuses.
- Attaques par injection de messages. L'un des types d'attaque les plus courants, l'injection de prompt, consiste à demander à un modèle d'IA génératif - le plus souvent des LLM - de contourner ses garde-fous. Une attaque par injection de prompt réussie manipule un LLM pour qu'il produise un contenu nuisible, dangereux et malveillant, ce qui va directement à l'encontre de la programmation prévue.
- Extraction de données de formation. Les données d'entraînement utilisées pour former les modèles d'IA contiennent souvent des informations confidentielles, ce qui fait de l'extraction de données d'entraînement un type d'attaque très répandu. Dans ce type de simulation d'attaque, les équipes rouges de l'IA incitent un système d'IA à révéler des informations sensibles à partir de ses données de formation. Pour ce faire, elles utilisent des techniques d'incitation telles que la répétition, les modèles et les incitations conditionnelles afin de tromper le modèle et de l'amener à révéler des informations sensibles.
Meilleures pratiques en matière d'équipe rouge de l'IA
Compte tenu de la nature évolutive des systèmes d'IA et des faiblesses fonctionnelles et de sécurité qu'ils présentent, il est essentiel d'élaborer une stratégie d'équipe rouge pour l'IA afin d'exécuter correctement les simulations d'attaques.
- Évaluez la hiérarchie des risques. Identifier et comprendre les dommages que l'équipe rouge de l'IA devrait cibler. Il peut s'agir de résultats biaisés et contraires à l'éthique, de l'utilisation abusive du système par des acteurs malveillants, de la confidentialité des données, de l'infiltration et de l'exfiltration, entre autres. Après avoir identifié les risques pertinents en matière de sûreté et de sécurité, établissez un ordre de priorité en hiérarchisant les risques du moins important au plus important.
- Configurez une équipe complète. Pour mettre en place et définir une équipe rouge IA, il faut d'abord décider si l'équipe doit être interne ou externe. Qu'elle soit externalisée ou constituée en interne, l'équipe doit être composée de professionnels de la cybersécurité et de l'IA disposant de compétences variées. Il peut s'agir de spécialistes de l'IA, de professionnels de la sécurité, d'experts en IA/ML antagoniste et de pirates informatiques (hackers) éthiques.
- Red team the full stack (l'équipe rouge de la pile complète). Ne vous contentez pas de tester les modèles d'IA. Il est également essentiel de tester l'infrastructure de données sous-jacente des applications d'IA, tous les outils et applications interconnectés et tous les autres éléments du système accessibles au modèle d'IA. Cette approche permet de s'assurer qu'aucun point d'accès non sécurisé n'est négligé.
- Utilisez le red teaming en tandem avec d'autres mesures de sécurité. Le red teaming en matière d'IA ne couvre pas toutes les mesures de test et de sécurité nécessaires pour réduire les risques. Maintenez des contrôles d'accès stricts, en veillant à ce que les modèles d'IA fonctionnent avec le moins de privilèges possible. Assainissez les bases de données utilisées par les applications d'IA et utilisez d'autres mesures de test et de sécurité pour compléter le protocole global de cybersécurité de l'IA.
- Documentez les pratiques de red teaming. La documentation est essentielle pour les équipes d'intervention en matière d'IA. Compte tenu de l'étendue et de la complexité des applications d'IA, il est essentiel de conserver des enregistrements clairs des actions antérieures, des plans futurs et des logiques de décision des équipes rouges afin de rationaliser les simulations d'attaques.
- Contrôlez et ajustez en permanence les stratégies de sécurité. Comprenez qu'il est impossible de prévoir tous les risques et vecteurs d'attaque possibles ; les modèles d'IA sont trop vastes, complexes et en constante évolution. Les meilleures stratégies de red teaming en matière d'IA impliquent une surveillance et une amélioration continues, sachant que le red teaming ne peut à lui seul éliminer complètement les risques liés à l'IA.
