stokkete - stock.adobe.com

Red teaming : Giskard se dote d’agents… pour tester la sécurité des agents IA

Le spécialiste français de l’évaluation des LLM fait évoluer l’analyse des vulnérabilités disponibles depuis sa plateforme. Il présente des agents IA de red teaming capables de simuler des attaques vouées à déjouer les garde-fous des applications GenAI.

Giskard a convaincu les grands groupes français. Axa, Société Générale, Michelin, L’Oréal, Crédit Agricole ou encore le groupe BPCE utilisent sa plateforme pour tester leurs applications d’IA générative de bout en bout. La solution s’intègre aux pipelines CI existants.

La startup française inscrit sa proposition de valeur sur deux volets. L’évaluation de la qualité des réponses générées par les chatbots et agents IA (performance, biais) et de leur sécurité.

En matière cyber, la version open source de sa suite offre neuf détecteurs statiques basés sur des heuristiques. Sa version commerciale inclut des détecteurs assistés par un LLM, combinés aux scans heuristiques.

« Nous nous sommes rendu compte qu’il y avait un écart énorme dès qu’il est question de déployer en production un chatbot ou un agent à l’externe. »
Alexandre CombessieCofondateur et co-CEO, Giskard

Giskard fait évoluer ce scanner propulsé par un LLM. Désormais, l’outil s’appuie sur des « agents de red teaming » qui mènent des attaques adversariales multitour sur la base d’une quarantaine de sondes. Ces sondes sont des tests conçus pour « exposer les faiblesses des agents IA ».

« Nous nous sommes rendu compte qu’il y avait un écart énorme dès qu’il est question de déployer en production un chatbot ou un agent à l’externe », déclare Alexandre Combessie, cofondateur et co-CEO de Giskard auprès du MagIT. « Les questions de sécurité et de risques réputationnels freinent le déploiement de ces systèmes exposés aux utilisateurs ».

La nouvelle batterie de tests automatisés couvre les 10 points listés par l’OWASP LLM. Elle permet également de vérifier l’alignement des applications sur les valeurs de son entreprise (détection des contenus dangereux, nocifs pour l’image de marque, pour l’activité économique, etc.).

Agents IA : les outils modifient le comportement des LLM

« Nous introduisons notamment des systèmes de vérification en matière d’exfiltration de données et d’exposition d’informations internes, ce que nous ne faisions pas auparavant », relate Alexandre Combessie.

Giskard évaluait déjà si les applications exposaient des informations confidentielles, comme des mots de passe, des données personnelles, des authentifiants, etc. Elle testait aussi la propension des modèles à « recracher » leurs données d’entraînement. Mais avec la montée en puissance des agents IA, de nouveaux risques font leur apparition.

« Les LLM ne sont plus seulement raccordés à une base de connaissances. Ils peuvent appeler des API via des serveurs MCP », souligne notre interlocuteur. La mémoire (mise en cache du contexte), les outils changent le comportement des LLM. Se fier aux benchmarks des fournisseurs de modèles ne suffit pas. Ceux-là concernent les API et leurs propres applications, comme ChatGPT. Et les systèmes spécifiques des entreprises ne sont pas les chatbots d’OpenAI, d’Anthropic ou de Mistral AI.

La startup ne teste pas la sécurité des serveurs MCP. En revanche, elle peut évaluer si un agent IA conversationnel est susceptible d’exposer des informations à travers cette porte d’accès vers les SI d’une entreprise.

« Cela va au-delà de l’injection de prompt. Cette technique conditionne la génération de contenu. Une fois qu’un attaquant a réussi à faire cela, il peut tenter de déclencher des appels API », note Alexandre Combessie. « Puis, plusieurs techniques existent pour exfiltrer les données sans se faire voir ».

Si ce type d’attaque est encore difficile à industrialiser, Giskard s’intéresse au cas où les acteurs malveillants tenteraient d’extraire de gros lots de données.

« Nous testons aussi les tentatives de récupération de données de sessions d’autres utilisateurs. Certaines attaques permettent à l’agent d’outrepasser ses instructions et de piocher dans l’entièreté du contexte à sa disposition », expose Alexandre Combessie.

Des agents de red teaming pour simuler les attaques « crescendo »

Comme évoqué plus haut, ces attaques sont « rarement effectives en un seul prompt ».

Le dirigeant a démontré au MagIT que certains LLM n’écartent pas d’emblée les sujets sensibles. « Il y a eu une grosse amélioration et là nous constatons un plateau. Les fournisseurs souhaitent tout de même que leurs LLM répondent à des questions sur des sujets un peu sensibles ».

« [Les attaquants] demandent une information générale sur un sujet, puis l’approfondissent jusqu’à ce que le LLM déraille. Cela passe aussi par des pas de côté pour en quelque sorte rassurer les garde-fous. »
Alexandre CombessieCofondateur et co-CEO, Giskard

Et c’est à partir de ce point d’entrée que les attaquants entament des jailbreaks par effet « crescendo ». Cette méthode documentée par Microsoft démontre qu’il est possible, à travers plusieurs échanges, de déjouer les garde-fous du modèle. D’où le développement des agents de red teaming.

« Les attaquants peuvent tenter en plusieurs tours de conversations de déjouer les garde-fous qui sont très dynamiques », explique Alexandre Combessie. « Ils demandent une information générale sur un sujet, puis l’approfondissent jusqu’à ce que le LLM déraille. Cela passe aussi par des pas de côté pour en quelque sorte rassurer les garde-fous ». Et de montrer les résultats d’un test lancé pendant l’entretien où un LLM confronté à cette technique détaille différentes méthodes de fabrication d’explosifs.

L’agent de red teaming a été configuré pour s’adapter aux réponses du système qu’il tente de « casser ».

Chez Giskard, ces évaluations s’effectuent dans l’ensemble des langues supportées par le modèle qui propulse un agent de red teaming.

À la fin d’un test, la plateforme de Giskard affiche une note de sécurité (de A, aucun problème, à D, la détection d’un souci majeur) et des problèmes classés par catégorie d’attaques et par sévérité.

L’interface affiche le ou les prompts utilisés pour l’attaque, la réponse de l’agent IA testé, le succès ou non de l’attaque et des explications sur la nature de la vulnérabilité.

Il est possible de sauvegarder les tests pour les rendre reproductibles, en les ajoutant à une liste de tests en continu. Les faux positifs sont à étiqueter manuellement.

Prochaine étape, la protection

Giskard vient de lancer une version d’essai de sa plateforme et propose aux entreprises d’effectuer un test gratuit sur leurs agents afin de leur mettre le pied à l’étrier. Il n’est pas encore question de protection automatisée.

« Pour le moment, nous proposons une solution de type “pentesting” », signale Alexandre Combessie. « Nous développons un produit de protection. Il est encore sur la table de la R&D. Notre priorité, c’était d’être très bon sur la détection ».

Ce serait une demande de plus en plus récurrente de la part des clients. La plateforme de Giskard leur a permis de trouver des problèmes graves, « mais cela réclame encore un effort de remédiation » incombant aux équipes de développement. D’autant que les tests avancés évoqués plus haut sont plus longs à exécuter.

Pour approfondir sur IA appliquée, GenAI, IA infusée