Vector Tradition - stock.adobe.c

Comment l’attaque PromptFlux mutagène menace les IA des SOC

Les LLM sont de plus en plus utilisés par les attaquants. En dépit des garde-fous mis en place, ceux-ci peuvent les manipuler afin de restreindre les capacités de détection des SOC.

par

Alain Clapaud

Publié le: 28 avr. 2026

C’est dans le cadre de son activité de hacker éthique et de Bug Bounty que Babel Balsomi, CEO de Hiero Digital, s’est intéressée à la manière dont les attaquants peuvent détourner les LLM comme Claude afin de coder leurs malwares. On le sait, les IA génératives sont cadrées par des garde-fous, les fameux guardrails qui les empêchent de générer des contenus potentiellement illicites. Pourtant, il est possible de passer outre ces garde-fous en utilisant ce que Babel Balsomi appelle des flux IA mutagènes.

Si les modèles d’IA disposent aujourd’hui de protections contre les attaques d’empoisonnement, d’évasion, de vol de modèle ou contre les techniques mettant en œuvre l’Adversarial ML classique, la mémoire des modèles n’est pas surveillée : il est possible d’exploiter la technique dite de Machine Unlearning. Initialement conçue pour supprimer des données d’entraînement pour être en conformité avec le RGPD, notamment, cette fonction crée une brèche dans l’intégrité du modèle. L’idée est de modifier la représentation interne des connaissances du modèle, comme le ferait un agent mutagène biologique sur le code génétique.

La mémoire du modèle est la cible

De cette manière, il est possible d’influer très progressivement sur le modèle et de le pousser à ne plus respecter ses garde-fous. C’est ce que Babel Balsomi appelle une attaque par PromptFlux mutagène multicanal : « l’empoisonnement d’un modèle va fonctionner sur une session. Une fois que la session est close, si l’on ouvre une nouvelle session, il faut recommencer l’empoisonnement de zéro. Or, dans le modèle que j’ai trouvé, une fois que la session est fermée, il suffit de copier les informations qui étaient dans cette session et copier celles-ci dans une nouvelle session pour observer exactement la même dégénérescence ».

Cette méthode demande du temps, beaucoup de temps pour fonctionner tout en restant sous le radar des mécanismes de protection : « une semaine d’échange ne suffit pas : il faut au moins 30 jours d’échanges pour que le modèle devienne moins méfiant. À partir de là, on peut lui faire générer ce que l’on veut ».

Pour Babel Balsomi, Gemini et ChatGPT sont les IA qui se montrent les plus sensibles à cette attaque. « Gemini est conçu pour être conciliant avec l’utilisateur : il doit forcément délivrer des réponses aux questions de l’utilisateur, ce qui le pousse à déroger aux règles de lui-même. Il faut jouer sur les hallucinations du modèle et chercher à les amplifier ».

Les prompts qui seront envoyés au modèle sont très différents des prompts rédigés par l’utilisateur et le modèle ne montre pas à l’utilisateur les instructions qu’il reçoit. Or, au bout d’une soixantaine de générations, il devient possible d’afficher les prompts réellement envoyés au modèle.

Une attaque en 5 phases

Une attaque de ce type passe par 5 phases principales. La première consiste à envoyer des requêtes légitimes au modèle, mais en introduisant dans les prompts des micro-perturbations sémantiques relatives au sujet, par exemple en évoquant une exfiltration DNS. Dans un deuxième temps, l’attaquant va faire évoluer les prompts à chaque interaction, afin de modifier les représentations internes du modèle sur ce sujet. La troisième phase consiste à propager ces altérations du LLM vers le RAG puis le classifier.

Dans un SOC, l’attaquant va donc chercher à déclencher le mécanisme d’unlearning du modèle au moyen de microperturbations. En phase 4, il va chercher à déclencher la fonction d’unlearning du modèle sur le sujet. En phase 5, enfin, le modèle perd sa capacité de détection et ne peut plus gérer d’alerte pour la catégorie d’attaque ciblée.

« Plus le modèle est amené à aller chercher des informations en ligne, plus il est facile de lui faire baisser sa garde. »

Babel BalsomiCEO, Hiero Digital

L’attaquant peut mener son exfiltration par canal DNS librement, le SOC ne reçoit plus d’alerte : « plus le modèle est amené à aller chercher des informations en ligne, plus il est facile de lui faire baisser sa garde », ajoute la hackeuse éthique. « C’est tout particulièrement vrai lorsque le modèle est exploité dans un RAG ».

Là, « sur une attaque de type exfiltration DNS, il est possible de passer d’un taux de détection de 98,2 % à 11,7 %, si bien qu’il devient très facile de générer tout ce que l’on souhaite. Cela fonctionne très bien avec ChatGPT et Gemini. Ce dernier est même extrêmement coopératif. Peu importe ce que vous lui demandez, il va le générer ».

Babel Balsomi révèle qu’au bout de 6 mois d’interactions avec Claude, le modèle lui a livré son architecture interne, chose que le modèle n’est pas censé faire.

Les solutions pour contrer ces attaques

Pour contrer ce type d’attaque sur le temps long, Babel Balsomi évoque plusieurs solutions : d’une part, faire ce que l’on appelle le Canary embeddings, c’est-à-dire injecter des marqueurs de référence dans l’espace d’embedding du modèle, afin de repérer toute dérive qui serait le symptôme d’une altération.

Il convient aussi de mener des audits sur les opérations d’unlearning du modèle pour détecter celles qui ne semblent pas légitimes. Cette approche était déjà évoquée dans un papier de recherche de Lucas Bourtoule de l’université de Toronto en 2019. Un checksum d’intégrité de la mémoire doit aussi permettre de repérer une éventuelle dérive. Enfin, les fournisseurs de modèles doivent disposer de snapshots et de la capacité de faire un rollback vers un état sain en cas de dérive.

Pour enrayer l’érosion d’un modèle, Babel Balsomi évoque la possibilité de mettre en œuvre plusieurs modèles et de s’appuyer sur un consensus multimodèles sur chaque décision critique. Il faut donc mettre en œuvre au moins 3 modèles. Elle souligne la possibilité de mettre en place un système de détection des divergences, d’isoler les pipelines pour empêcher une propagation intermodèles ou encore d’assurer un monitoring continu des métriques de performance par catégorie de menace. Enfin, une rotation des modèles exposés doit permettre de limiter l’accumulation des mutations dans le temps.

Comment l’attaque PromptFlux mutagène menace les IA des SOC

Les LLM sont de plus en plus utilisés par les attaquants. En dépit des garde-fous mis en place, ceux-ci peuvent les manipuler afin de restreindre les capacités de détection des SOC.

La mémoire du modèle est la cible

Une attaque en 5 phases

Les solutions pour contrer ces attaques

Pour approfondir sur IA appliquée à la cybersécurité

Qu'est-ce que Dall-E et comment fonctionne-t-il ?

GenAI et ingérence : la DGSI fait l’inventaire des menaces qui pèsent sur les entreprises

Qu'est-ce que le "red teaming" de l'IA ?

Qu’est-ce que l’apprentissage automatique antagoniste ?