Sergey Nivens - Fotolia

Balasz Scheidler (Balabit) : « l’analyse comportementale est un marché naissant »

Dans un entretien réalisé à l’occasion des Assises de la Sécurité, le co-fondateur et directeur du développement de Balabit a accepté de revenir avec la rédaction sur l’une des tendances fortes de la sécurité actuellement, l’analyse comportementale.

LeMagIT : Vous vous êtes récemment lancé sur le marché de l’analyse comportementale, avec BlindSpotter. Quel regard portez-vous sur ce marché ?

Balasz Scheidler : L’analyse comportementale en est à ses début en sécurité. D’autres secteurs y sont plus habitués, par exemple dans la publicité pour le placement ou encore la recommandation de produits. Ces secteurs utilisent ces outils et ces algorithmes depuis une décennie. Mais c’est tout nouveau dans la sécurité.

Les premiers clients, les early adopters, prennent leurs décisions d’achat en ce moment. Ils mesurent le potentiel de la technologie et veulent l’essayer, mais le marché n’est pas encore là. Surtout, les éditeurs s’y lancent en utilisant un même message pour des produits différents, ce qui peut créer de la confusion. Il est encore très difficile de naviguer dans un tel marché. Les attentes sont donc importantes, mais les incertitudes aussi.

LeMagIT : Les différences techniques sont effectivement nombreuses, en particulier quant aux sources de données analysées – logs, trafic réseaux, etc.

Balasz Scheidler : C’est à cela que je faisais référence. Une analyse s’appuie forcément sur certains types de données. Et tous les éditeurs essaient d’accéder aux données qui leur paraissent pertinentes pour leur approche. Nous nous basons principalement sur les logs, parce que c’est un domaine que nous maîtrisons bien. Mais nous ne nous appuyons pas que sur les logs.

Les logs constituent une source de données très large : de nombreuses choses alimentent les logs, mais souvent avec éléments très maigres et de mauvaise qualité, parfois sans structure, sans formatage défini, et sans certaines informations très importantes. Travailler avec les logs est donc très difficile.

BlindSpotter, par exemple, utilise par exemple d’autres sources, comme Shell Control Box, notre solution de surveillance de sessions utilisateur. Il y a là beaucoup d’informations, une granularité bien plus grande.

Pour le comportement, on peut se baser sur deux choses : l’individu, ce qu’il saisit, ce à quoi il ressemble même, mais également ce qu’il fait. Et tout cela est très lié. Si je regarde le comportement au clavier, je peux voir quelles commandes sont invoquées. Mais plusieurs personnes ayant le même rôle peuvent taper les mêmes choses. La vitesse de saisie est en revanche susceptible d’être plus éclairante sur l’individu.

La difficulté consiste à dissocier ces éléments collectés pour véritablement établir des liens entre activités et individus.

Selon nous, il est en définitive nécessaire de collecter autant de données que possible par individu pour couvrir ses journées : si l’on ne voit qu’une partie de sa journée, c’est probablement insuffisant pour générer un profil.

Pour le reste, je pense que la surveillance de sessions est une source d’informations assez bonne, que les flux réseaux pourraient en une aussi. Mais le problème est qu’ils sont étroitement liés aux machines : le trafic naturel d’un système d’information est largement automatique ; cela ne relève plus aujourd’hui assez des interactions d’un humain avec un ordinateur. Dès lors, la difficulté consiste à séparer ce qu’a fait l’utilisateur de ce qu’a fait son ordinateur.

LeMagIT : Quelles que soient les sources retenues, un filtrage s’impose, n’est-ce pas ?

Balasz Scheidler : Bien sûr. Nous ne pensons pas qu’il serait de toutes façons possible de traiter tous les logs. Nous les utilisons surtout pour obtenir des éléments de contexte. Nous nous tournons toujours vers eux avec un angle, une question spécifique. Par exemple, si je m’intéresse à l’activité d’un utilisateur durant sa session, je peux vouloir savoir ce qu’ont généré les logs serveurs à ce moment-là.

Mais je ne pense pas que l’on pourra prétendre que l’on analyse et comprend tous les logs avec un niveau de visualisation appréhendable par l’utilisateur final pour aboutir des conclusions. Les logs sont bons pour l’investigation, lorsque l’on sait déjà ce que l’on cherche à prouver.

La première chose à faire pour l’analyse comportementale est de définir un groupe d’utilisateur. Sans cela, on ne peut pas déterminer ce qu’il est pertinent de collecter. Pour utilisateurs de comptes à privilèges, par exemple, on va s’intéresser à surveillance de sessions et aux traces produites par leurs activités. Les outils d’administration peuvent par exemple générer des traces d’audit.

Pour des traders, les informations de transactions peuvent être une source plus pertinente, par exemple.

LeMagIT : De nombreux acteurs de l’analyse comportementale font référence au Machine Learning, comme un élément clé du domaine. Mais cela suffit-il ? N’a-t-on pas besoin d’aller plus loin et de faire appel à des systèmes plus évolués comme un Watson d’IBM, par exemple ?

Balasz Scheidler : Je ne pense pas qu’il faille chercher à sortir l’arme absolue tout de suite. Nous devons procéder par étapes et commencer par des choses simples, statistiques, parce qu’il est plus facile de comprendre, d’en éliminer les erreurs, et de créer la confiance.

L’idée est simple : si je ne comprends pas comment fonctionne un algorithme, je ne vais pas lui faire confiance ; je suis sceptique. Des choses comme le Deep Learning et Watson arrivent après le Machine Learning et les algorithmes statistiques simples.

La progression doit se faire de manière incrémentale afin que l’on comprenne les étapes intermédiaires, afin de les accepter.

Et dans de nombreux cas, je pense que des algorithmes simples produisent de meilleurs résultats, plus rapidement.

Pour approfondir sur Gestion de la sécurité (SIEM, SOAR, SOC)

Close