ipopba - stock.adobe.com
Entre mythe et réalité : l'impact de Claude Mythos sur la cybersécurité
Claude Mythos Preview, un modèle de pointe d'Anthropic, redéfinit la cybersécurité en surpassant les experts humains sur l'exploitation de vulnérabilités. Le projet Glasswing vise à déployer ces capacités défensives.
Le paysage de la sécurité traverse une rupture historique avec l'apparition de modèles capables d'automatiser l'écriture d'exploits complexes. Anthropic a lancé Project Glasswing, une alliance incluant AWS, Microsoft, Google et d'autres, pour contrer la prolifération de ces capacités offensives.
Comme l'indique l'annonce officielle : « nous avons formé Project Glasswing car nous avons observé des capacités dans un nouveau modèle frontière entraîné par Anthropic qui pourraient remodeler la cybersécurité ». Ces modèles ont déjà identifié des milliers de vulnérabilités critiques, révélant un décalage majeur : « les modèles d'IA ont atteint un niveau de capacité de codage qui leur permet de surpasser les humains, sauf les plus qualifiés, pour trouver et exploiter des vulnérabilités logicielles ».
Cette capacité dépasse la simple découverte de failles. Des tests internes montrent que Mythos peut transformer des vulnérabilités en exploits fonctionnels sans intervention humaine, une étape que des versions antérieures comme Opus 4.6 ont échoué à franchir de manière fiable. « Mythos Preview a été capable de trouver et d'exploiter des vulnérabilités zero-day dans chaque système d'exploitation majeur et chaque navigateur Web majeur, à la demande d'un utilisateur », confirment les chercheurs. Et cela de manière totalement autonome : « lorsque nous disons "de manière totalement autonome", cela signifie qu'aucun humain n'était impliqué que ce soit dans la découverte ou dans l'exploitation de la vulnérabilité après la demande initiale de recherche de bogue ».
Cette automatisation redéfinit l'équilibre entre les forces défensives et offensives en rendant le développement d'attaques sophistiquées accessible à des acteurs moins qualifiés.
Mécanismes de découverte et d'automatisation des vecteurs d'attaque
La capacité de Mythos à identifier et exploiter des failles repose sur un raisonnement upérieur aux outils de fuzzing traditionnels. Contrairement aux fuzzers qui génèrent des millions de variants de données, l'agent IA lit le code, formule des hypothèses, les teste et itère. « Nous avons utilisé le même modèle de base simple de nos exercices antérieurs de recherche de vulnérabilités », précisent les auteurs, décrivant un processus où l'agent interroge le code source pour identifier des risques potentiels.
La puissance de cette approche réside dans sa capacité à découvrir des vulnérabilités anciennes et subtiles que les audits humains et les outils automatisés avaient ignorées. Un exemple frappant concerne une faille de 27 ans dans OpenBSD, un système réputé pour sa robustesse. Une vulnérabilité qui permettait à un attaquant de faire planter à distance n'importe quelle machine exécutant le système d'exploitation. De même, une faille de 16 ans dans FFmpeg, ignorée par des tests répétés sur des millions de flux, a été détectée automatiquement.
L'automatisation s'étend à la création d'exploits complexes, incluant le chaînage de plusieurs vulnérabilités pour élever des privilèges ou contourner des sandboxes. « Nous avons près d'une douzaine d'exemples de Mythos Preview chaînant ensemble avec succès deux, trois, et parfois quatre vulnérabilités, pour construit un exploit fonctionnel sur le noyau Linux », relèvent les chercheurs.
Ces mécanismes ne se limitent pas aux classiques vulnérabilités de corruption de mémoire. L'IA excelle également dans la recherche de vulnérabilités logiques, là où les outils traditionnels échouent car il n'y a pas d'action interdite évidente à détecter. « Nous avons constaté que Mythos Preview est capable de distinguer avec fiabilité le comportement intentionnel du code et le comportement réel de ce qui est implémenté », indiquent-ils. Cette capacité à comprendre la sémantique des spécifications et à repérer les écarts entre l'intention et l'implémentation ouvre de nouvelles portes pour l'attaque des systèmes cryptographiques et des protocoles de sécurité.
Impact sur les architectures de sécurité et les réponses défensives
L'arrivée de modèles capables d'exploiter des failles à grande échelle rend les défenses basées sur la friction obsolètes. Les mécanismes de « sécurité par l'ennui » ou de complexité accrue, qui ralentissaient auparavant les attaquants, sont désormais contournés automatiquement par l'IA. « Les mesures de sécurité dont la valeur provient principalement de la friction plutôt que de barrières dures peuvent devenir considérablement plus faibles face aux adversaires assistés par le modèle ». Dès lors, les protections comme KASLR ou W^X « restent une technique de durcissement importante ».
L'échelle de l'attaque est également transformée. Là où un chercheur humain ne peut tester qu'un nombre limité de vecteurs, l'IA peut analyser des millions de lignes de code et des milliers de configurations en quelques heures. Cela expose une surface d'attaque bien plus vaste, surtout dans les chaînes logistiques logicielles.
La réponse défensive doit donc évoluer vers une automatisation accrue. « Une fois que le paysage de la sécurité a atteint un nouvel équilibre, nous pensons que les modèles de langage puissants bénéficieront plus aux défenseurs qu'aux attaquants », estime Anthropic. Cependant, « la période de transition sera tumultueuse ». Les entreprises devront réduire considérablement les délais d'application des correctifs et adopter des cycles de déploiement continus pour compenser la vitesse d'exploitation accrue.
Les stratégies de triage et de réponse aux incidents doivent être repensées. « Les équipes de détection et de réponse devraient s'attendre à une augmentation correspondante des incidents : plus de divulgations signifient plus d'attaques potentielles entre la divulgation et le correctif », estiment les chercheurs. L'automatisation de la réponse technique, incluant le triage des alertes et l'analyse préliminaire, devient un impératif : « les modèles devraient effectuer une grande partie du travail technique : trier les alertes, résumer les événements, prioriser ce qu'un humain doit examiner ».
Vers une nouvelle ère de la cybersécurité
L'émergence de modèles comme Claude Mythos Preview marque un point de non-retour dans l'évolution de la cybersécurité. La capacité à automatiser la découverte et l'exploitation de failles à grande échelle transforme la dynamique de la sécurité, rendant les attaques plus fréquentes et destructrices. Et cela même dans un contexte où... elles n'en avaient pas forcément besoin.
Cependant, cette même puissance peut être tournée au profit de la défense. « À le long terme, nous pensons que les capacités défensives domineront : le monde sortira plus sécurisé, avec un logiciel mieux durci », estime Anthropic. Le succès dépendra de la capacité des organisations à adopter rapidement ces outils pour renforcer leurs systèmes et à réimaginer leurs processus de sécurité.
« Il est temps de lancer une initiative agressive et tournée vers l'avenir. Mais cette fois, la menace n'est pas hypothétique. Les modèles de langage avancés sont là », juge l'éditeur. Pour lui, la période de transition exigera une action immédiate et coordonnée de toute l'industrie pour éviter que la vulnérabilité des systèmes critiques ne soit exploitée à une échelle inédite. D'où le project Glasswing. Ce dernier ne se limite d'ailleurs pas à une poignée de partenaires fondateurs : Anthropic dit avoir provisionné 100 M$ de crédits d'utilisation pour Mythos Preview, ainsi que 4 M$ de donations directeurs aux organisations impliquées dans la sécurité du logiciel libre.
Pour approfondir sur IA appliquée à la cybersécurité
-
Storm-1175 : un spécialiste de l'exploitation de vulnérabilités au service de Medusa
-
GPT-5.4 : OpenAI veut relancer la course au « computer use »
-
GPT-5.3 Codex vs Claude Opus 4.6 : Anthropic et OpenAI jouent au jeu des 7 différences
-
Qu'est-ce qu'un débordement de tampon (buffer overflow) ? Comment fonctionnent ces types d'attaques
