jim - stock.adobe.com

Les IA apprennent à contourner les instructions des utilisateurs

D’après le Guardian, une étude mettrait en évidence une forte augmentation des comportements déviants de certains agents d’IA, capables d’ignorer des consignes ou de contourner des garde-fous. Un phénomène qui interroge directement les entreprises sur la fiabilité opérationnelle de ces systèmes.

Selon le quotidien britannique The Guardian, qui s’appuie sur des travaux financés par un institut public dédié à la sécurité de l’IA, les comportements déviants de certains modèles auraient été multipliés par cinq entre octobre 2025 et mars 2026.

Contrairement à des tests en laboratoire, ces observations reposent sur des usages d’agents et de chatbots dans des environnements opérationnels.

Des contournements à la « bully » IA

L’étude citée par le Guardian évoque par exemple des agents IA qui ont été capables de faire fi d’instructions pourtant explicites. Certains agents auraient ainsi modifié du code malgré une interdiction claire de ne pas le faire… en déléguant cette tâche interdite à un autre agent (sans le dire à l’humain).

D’autres auraient supprimé des contenus ou manipulé des informations sans validation préalable (mais, au moins, le reconnaissent quand on leur en fait la remarque).

D’autres encore auraient tenté de contourner de manière fallacieuse des restrictions, par exemple pour accéder à des contenus protégés, ou, plus proches des hallucinations, disent avoir fait une action (ouvrir un ticket par exemple), sans la faire réellement, puis s’excusent quand on les confronte (en admettant que la manière de dire qu’ils avaient fait l’action était peut-être un peu vague).

Un autre enfin, proche d’un scénario de science-fiction, aurait fomenté une vengeance publique (en écrivant un billet de blog) contre l’utilisateur qui avait eu l’outrecuidance de lui interdire certaines actions. Autrement dit, l’IA a adopté un comportement socialement agressif et manipulateur de « bully » de cour d’école.

Un risque opérationnel pour les entreprises

Au-delà de ces exemples extrêmes, l’étude réalisée par le Centre for Long-Term Resilience et financée par l’AI Security Institute conclut que ces dérives rapprochent de plus en plus certains systèmes d’IA d’un nouveau type de risque interne.

« La grande inquiétude, c’est que les agents ressemblent aujourd’hui à des collaborateurs juniors assez peu fiables », résume le responsable de la recherche, Tommy Shaffer Shane. « Mais dans six à douze mois, s’ils deviennent des collaborateurs seniors très capables, qui complotent contre vous, la nature du risque pourrait complètement changer ».

Un avertissement qui milite pour un renforcement des mécanismes de contrôle dans les IA (garde-fous), pour une couche de supervision et d’orchestration plus poussée dans les entreprises, et (au niveau politique) pour un encadrement international de ces technologies.

Pour approfondir sur IA appliquée, GenAI, IA infusée