ipopba - stock.adobe.com

CTI : l'accélération de l'analyse technique par les modèles de langage

L'intégration des modèles de langage dans l'analyse CTI accélère le traitement des données massives et transforme la production de rapports techniques. Intrinsec vient de partage son expérience.

L'intégration des modèles de langage (LLM) dans les processus de renseignement sur les menaces, ou Cyber Threat Intelligence (CTI), modifie la structure de la production analytique. L'usage de l'IA ne remplace pas l'investigation mais agit comme un multiplicateur de capacité d'exécution. Cette approche permet d'absorber des volumes de données techniques que l'analyse humaine seule traiterait avec une latence significative. Ce sont les conclusions des équipes d'Intrinsec.

Dans une étude de cas récente, raconte Gilbert Kallenborn, ingénieur cybersécurité, l'utilisation d'une IA a permis d'examiner un dépôt GitHub volumineux comprenant 574 commits. Le modèle a isolé en 40 minutes quatre artefacts malveillants dissimulés dans des fichiers de configuration et de dépendances. Cette capacité de traitement rapide de l'analyse technique par analyse statique de code permet à l'analyste de se concentrer sur la synthèse plutôt que sur la lecture linéaire de fichiers.

Anatomie d'une campagne de recrutement frauduleuse sur GitHub

La campagne analysée exploitait un scénario de recrutement frauduleux ciblant des développeurs blockchain. L'infrastructure reposait sur une entreprise fictive et un projet en apparence légitime, dissimulant des mécanismes de compromission sophistiqués.

Les vecteurs d'infection identifiés incluaient : l'exécution automatique de tâches malveillantes lors de l'ouverture du dossier dans VSCode ; introduction d'une dépendance npm piégée ; une chaîne de staging multi-étapes utilisant des jetons JWT éphémères ; et une infrastructure de commande de contrôle (C2) dotée d'un filtrage comportemental pour résister à l'investigation.

Cartographie rapide d'une cinétique d'attaque multi-étapes

Le LLM a été utilisé pour reconstruire la cinétique d'attaque en un peu plus d'une heure, une tâche qui aurait nécessité une journée complète pour un analyste humain seul. Le modèle a ainsi réussi à identifier les trois vecteurs d'infection, reconstruire de la chaîne de staging en quatre étapes, extraire les marqueurs techniques de compromission (IOC), décoder une URL C2 encodée en base64, et assurer le démaquillage partiel d'un fichier JavaScrip.

Le modèle a également généré la structure complète du rapport, incluant un mapping sur 30 techniques MITRE ATT&CK, des tableaux d'IOCs et des hashes cryptographiques.

Limites du raisonnement probabiliste et nécessité de supervision

L'efficacité du LLM est contrainte par la nature de son raisonnement probabiliste, ce qui impose une supervision humaine constante pour valider les conclusions. Une erreur spécifique a illustré cette limite : lors de la reconstruction de la chaîne de staging, l'IA a interprété l'échec des requêtes HTTP vers le C2 comme un blocage d'adresse IP.

L'analyste a dû intervenir pour identifier la cause réelle : le C2 filtre les requêtes sur le User-Agent, exigeant une empreinte spécifique au format npm. Comme le souligne Gilbert Kallenborn, « l'erreur de l'IA [...] n'est pas un défaut à corriger, c'est une frontière à cartographier. Elle indique exactement là où le raisonnement probabiliste s'arrête et où l'expertise humaine reste irremplaçable ».

Dans ce modèle de collaboration, l'analyste conserve donc le rôle de décideur : identifier le dépôt suspect, définir les hypothèses d'investigation et corriger les trajectoires de l'IA via une ingénierie de prompt continue. Le gain de productivité n'en est pas moins mesurable : six heures de travail combiné ont permis de produire un livrable qui aurait nécessité deux à trois jours de travail en solo.