Big Data et sécurité : une liaison à double sens

En matière de sécurité, deux problèmes différents se posent : la sécurité des informations dans un contexte de Big Data, et l'utilisation des techniques Big Data pour analyser et prévoir les incidents.

Le Big Data suscite énormément de débats, mais de quoi discutons-nous vraiment ? En matière de sécurité, deux problèmes différents se posent : d'une part la sécurité des informations de l'entreprise et de ses clients dans un contexte de Big Data, d'autre part l'utilisation des techniques du Big Data pour analyser, ou prévoir, les incidents de sécurité.

Sécuriser votre Big Data

Un grand nombre d'entreprises utilisent le Big Data pour le marketing et les recherches, mais ne maîtrisent pas forcément les concepts de base, en particulier du point de vue de la sécurité.

La plupart des entreprises ont déjà des difficultés à mettre ces concepts en oeuvre, ce qui rend la tâche très ardue. Nous devons identifier à qui appartiennent les résultats des processus du Big Data, de même que les données brutes. Ainsi, la propriété des données sera distincte de la propriété des informations, les données brutes appartenant éventuellement au service informatique tandis que les départements seront responsables des résultats.

Big Data

Comme avec toutes les nouvelles technologies, la sécurité semble être une préoccupation après coup, dans le meilleur des cas.

Or, les atteintes à la protection du Big Data peuvent être importantes, et risquent de nuire à la réputation de l'entreprise et d'avoir des répercussions juridiques encore plus graves qu'actuellement.

Un nombre croissant d'entreprises utilisent cette technologie pour stocker et analyser des pétaoctets de données, notamment les journaux Web, les données sur le parcours de navigation et le contenu des réseaux sociaux, dans le but de mieux connaître leurs clients et leurs activités.

Par conséquent, la classification des informations devient encore plus critique ; et il convient de déterminer la propriété des informations pour permettre une classification acceptable.

Très peu d'entreprises sont susceptibles de créer un environnement Big Data en interne, par conséquent le Cloud et le Big Data seront inextricablement liés. Comme la plupart des entreprises le savent, stocker les données dans le Cloud ne les décharge pas de la responsabilité de les protéger, tant d'un point de vue légal que commercial.

Le recours à des techniques telles que le chiffrement fondé sur des attributs peut s'avérer nécessaire pour protéger les données sensibles et appliquer des contrôles d'accès (s'agissant d'attributs des données elles-mêmes, plutôt que de l'environnement dans lequel elles sont stockées). Actuellement, beaucoup de ces concepts sont méconnus des entreprises.

Déployer le Big Data pour la sécurité

Beaucoup d'entreprises sont tentées de déployer le Big Data pour détecter les fraudes, à la place des systèmes de gestion des informations et des événements de sécurité (SIEM). La gestion induite par le traitement des résultats des systèmes SIEM et de journalisation classiques s'avère trop lourde pour la plupart des services informatiques et le Big Data est considéré comme un sauveur potentiel. Il existe dans le commerce des solutions de remplacement pour les systèmes actuels de gestion des journaux, ou la technologie peut être déployée afin de fonctionner comme un magasin de données unique pour la gestion et l'enrichissement des événements de sécurité.

En poussant cette idée un peu plus loin, il est possible de répondre au problème de la détection et de la prévention des menaces avancées persistantes en utilisant l'analyse de style Big Data. Ces techniques peuvent jouer un rôle clé dans la détection précoce des menaces, grâce à une analyse plus sophistiquée des tendances et à l'examen de plusieurs sources de données combinées. Il est également possible d'identifier les anomalies en procédant à l'extraction de fonctionnalités.

Aujourd'hui, les fichiers journaux sont souvent ignorés sauf en cas d'incident. Le Big Data donne la possibilité de consolider et d'analyser automatiquement les fichiers journaux provenant de plusieurs sources plutôt que de manière isolée. Il peut donc révéler des informations que ne donnent pas les différents fichiers journaux, et éventuellement améliorer les systèmes de détection des intrusions (IDS, Intrusion Detection System) et les systèmes de prévention des intrusions (IPS, Intrusion Prevention System) grâce à des ajustements continus et à un apprentissage efficace des comportements « bons » et « mauvais ».

L'intégration d'informations fournies par les systèmes de sécurité physiques, tels que les contrôles d'accès aux bâtiments et même la vidéosurveillance, peut également renforcer les systèmes IDS et IPS de façon à prendre en compte les attaques de l'intérieur et l'ingénierie sociale dans le processus de détection. Cette démarche permet une détection beaucoup plus poussée des activités frauduleuses et criminelles.

Il est prouvé que les silos organisationnels réduisent souvent l'efficacité des systèmes de sécurité, par conséquent les entreprises doivent savoir que les performances potentielles d'une analyse de style Big Data peuvent également être diluées si ces problèmes ne sont pas résolus.

A tout le moins, le Big Data peut permettre des mises en oeuvre beaucoup plus pratiques et efficaces des systèmes SIEM, IDS et IPS.

Risques associés aux technologies du Big Data

  • Il s'agit d'une nouvelle technologie pour la plupart des organisations, et toute technologie qui n'est pas bien maîtrisée introduit de nouvelles vulnérabilités.
  • Généralement, les mises en oeuvre du Big Data utilisent du code open source, d'où le risque que des portes dérobées et des informations d'identification par défaut ne soient pas reconnues.
  • La surface d'attaque des noeuds d'un cluster peut ne pas avoir été examinée et les serveurs renforcés de manière adéquate.
  • L'authentification des utilisateurs et l'accès aux données à partir de plusieurs emplacements peuvent ne pas être suffisamment contrôlés.
  • Les obligations légales peuvent ne pas être respectées, avec un accès problématique aux fichiers journaux et aux pistes de contrôle.
  • Les risques d'introduction de données malveillantes et de validation inadéquate des données sont importants.

Technologies et risques du Big Data

Si vous faites une recherche sur le terme Big Data, vous tomberez invariablement sur Hadoop. Les entrepôts de données traditionnels et les bases de données relationnelles traitent des données structurées et peuvent stocker des quantités énormes de données, mais les exigences en matière de structuration limitent le type de données qui peuvent être traitées. Hadoop est conçu pour traiter de grandes quantités de données, quelle que soit leur structure.

L'infrastructure MapReduce qui constitue le coeur d'Hadoop a été créée par Google en réponse au problème de la création d'index de recherche sur le Web. MapReduce répartit les calculs entre plusieurs noeuds, résolvant ainsi le problème des données trop volumineuses pour tenir sur une seule machine. Associée à des serveurs Linux, cette technique constitue une solution économique de remplacement des tableaux de calcul très volumineux.

Le système de fichiers distribués Hadoop (HDFS) permet, en cas de panne d'un serveur, de ne pas interrompre le processus de traitement grâce à la réplication redondante des données dans l'ensemble du cluster. Aucune restriction n'est imposée aux données stockées dans le système HDFS : elles peuvent être non structurées et sans schéma.

A l'inverse, les bases de données relationnelles exigent, avant tout enregistrement, que les données soient structurées et les schémas définis. Avec HDFS, c'est le code des développeurs qui est chargé d'interpréter les données.

Compétences spéciales

En réalité, le Big Data est plus une affaire de techniques et de résultats de traitement que de taille des données elles-mêmes. Par conséquent,  des compétences spécifiques sont nécessaires pour l'utiliser efficacement. On observe une pénurie généralisée de compétences spécialisées en analyse du Big Data, en particulier pour l'utilisation de certaines des technologies les moins matures.

L'utilisation croissante d'Hadoop et des technologies connexes génère une demande de personnel possédant des compétences très spécifiques. Les profils les plus recherchés sont les spécialistes en analyse statistique multivariée, en data mining, en modélisation prédictive, en traitement du langage naturel, en analyse des contenus, en analyse de texte et en analyse des réseaux sociaux. Ces analystes et scientifiques travaillent sur des données structurées et non structurées afin d'apporter de nouvelles connaissances et informations aux entreprises. Des professionnels de la gestion des plateformes sont également nécessaires pour mettre en oeuvre des clusters Hadoop, les sécuriser, les gérer et les optimiser.

Des fournisseurs tels que Cloudera, MapR, Hortonworks et IBM proposent des formations sur Hadoop, donnant la possibilité aux entreprises de développer leurs compétences internes afin de relever les défis du Big Data.

Avant de faire le grand saut dans ce meilleur des mondes, les entreprises doivent avoir une idée claire de l'objectif qu'elles cherchent à atteindre, afin de ne pas investir en pure perte.

En résumé, le Big Data repousse les limites des responsabilités existantes en matière de sécurité des informations, en introduisant de nouveaux risques et problèmes non négligeables.

Pour approfondir sur Big Data et Data lake

Close