Alex - stock.adobe.com
La séparation : pourquoi les RSSI découplent les données de leurs SIEM
La séparation est difficile à réaliser, mais certains RSSI trouvent que découpler les SIEM des flux de données de journaux de sécurité en vaut la peine. Découvrez les avantages et les défis.
Le SIEM d'entreprise traditionnel récupère les données de journaux de sécurité à partir de sources dans l'environnement informatique, puis les normalise, les analyse et les conserve. Mais comme les fournisseurs de SIEM facturent généralement plus pour conserver plus de données, les organisations doivent généralement conserver moins de données qu'elles ne le souhaiteraient et accepter les limitations des analyses ultérieures.
De plus, les SIEM conservent les données dans leurs propres formats, souvent propriétaires. En fait, la manière dont les fournisseurs de SIEM analysent et normalisent les données est une façon pour eux de se différencier de leurs concurrents. Chacun cherche à utiliser des schémas uniques, des techniques de compression et des bases de données spécialisées pour améliorer à la fois la qualité des résultats et la vitesse. Par conséquent, les entreprises ont un contrôle limité sur la manière dont leurs données sont ingérées et digérées, et les formats et analyses propriétaires peuvent rendre difficile le changement de fournisseurs.
Certains RSSI, trouvant les limitations et les compromis de l'ingestion et de la conservation des données dans le SIEM trop restrictifs, choisissent de découpler leurs flux de données de journaux de sécurité de leurs SIEM. Cela faisant, ils obtiennent généralement un accès plus libre aux données, augmentent le contrôle sur les calendriers de conservation, améliorent les capacités analytiques, maîtrisent les coûts des SIEM et se libèrent du verrouillage fournisseur (vendor lock-in). Mais découpler les données du SIEM présente également des défis et nécessite un engagement, un investissement et une planification importants.
Comment fonctionne le découplage des données du SIEM
Pour découpler les sources de données de sécurité du SIEM, les équipes de sécurité insèrent des systèmes qu'elles contrôlent au milieu de ces flux de données. En pratique, cela signifie établir un magasin de données séparé et dédié pour conserver les données de journaux de sécurité, typiquement un lac de données (data lake) vivant dans un service de stockage cloud comparativement peu coûteux. Cela signifie également établir un nouveau pipeline de données qui reçoit les données de journaux, les pré-traite et les normalise, puis les déverse dans le lac de données. L'entreprise alimente ensuite son SIEM avec des données provenant du lac.
Avantages du découplage des SIEM des pipelines de données et du stockage
Établir une couche de données indépendante, contrôlée par l'entreprise, entre les sources de données de journaux de sécurité et les applications qui les consomment - par exemple, les SIEM et d'autres outils tels que l'analyse du comportement des utilisateurs et des hôtes - permet à l'entreprise de faire ce qui suit :
- Dicter le schéma de données pour l'enregistrement des journaux.
- Contrôler complètement le filtrage des logs et le modifier facilement selon la destination.
- Contrôler complètement les horizons de conservation pour chaque type de données provenant de chaque plateforme.
- Suivre avec précision et facilement toutes les sources de données de sécurité et tous les consommateurs de données de sécurité.
- Imposer facilement une adhésion cohérente aux politiques de collecte et de conservation des données institutionnelles.
- Ajouter facilement de nouveaux outils de sécurité qui ont besoin d'accéder aux flux de données existants.
- Changer facilement - voire supprimer - les fournisseurs SaaS et SIEM sans perdre de données.
Le passage du stockage basé sur le SIEM, plus coûteux, au stockage en masse cloud moins cher réduira probablement également le coût de stockage des données de sécurité, en soi. Mais - et il est important de comprendre - que cette réduction des coûts pourrait ne pas entraîner d'économies nettes, car les coûts des nouveaux outils ou services et du temps du personnel pourraient compenser ces économies.
Défis du découplage du SIEM de la couche de données
Bien sûr, avec ses avantages, le découplage des données des plateformes SaaS ou SIEM comporte également des défis. Ceux-ci comprennent :
- Concevoir un lac de données et un pipeline de données puissants, sécurisés, évolutifs et rentables, y compris la sélection des protocoles d'échange de données appropriés et des schémas de stockage de données.
- Migrer vers la nouvelle architecture sans perte de données ni interruptions du balayage de sécurité.
- Exploiter et supporter efficacement le lac de données et le pipeline, y compris garantir les sauvegardes et la continuité du service face aux perturbations.
- Faire face à la latence créée par l'interposition de la nouvelle couche, laquelle nécessite une attention dans les phases de conception, d'ingénierie et d'exploitation, ainsi qu'une surveillance continue pour garantir que la latence se situe dans des limites acceptables.
- Faire face à la conformité, car la nouvelle couche de données doit respecter et appliquer toutes les exigences applicables, en fonction du type d'entreprise, du secteur et de la géographie, pour les données au repos et en mouvement.
Une boîte à outils de découplage
Les RSSI créant un nouveau lac de données de sécurité d'entreprise devront déterminer leurs stratégies dans les domaines suivants.
Extraction des données SaaS
Les outils d'extraction de données SaaS peuvent être construits en interne à l'aide des API SaaS. Alternativement, les approches tierces comprennent des plateformes propriétaires de gestion de la posture de sécurité SaaS telles que Obsidian Security, NetSkope SSPM et AppOmni, ainsi que des outils open source tels que Mondoo et OpenASPM.
Pipeline de données
Le pipeline de données est l'outil d'ingestion et de pré-traitement qui reçoit les journaux bruts et produit des enregistrements pour le lac de données dans un format (ou des formats) standardisé. Les produits commerciaux incluent Cribl, DataDog et Splunk. Les options open source comprennent Vector, Logstash et Fluentd.
Stockage des données
La plupart des grandes organisations ont déjà de l'expérience avec les lacs de données, ainsi que des fournisseurs préférés, tels que Snowflake et Google BigQuery, ou des options open source, telles qu'Apache HDFS ou MinIO.
Les entreprises doivent également envisager les formats de données. Les normes ouvertes devraient être le premier choix de tout le monde : Open Cybersecurity Schema Format pour les enregistrements de journaux destinés aux SIEM ou ailleurs, par exemple, et des formats de stockage tels qu'Apache Parquet ou Delta Lake pour le lac de données lui-même.
En découplant l'ingestion et la conservation des données de cybersécurité de leurs plateformes SIEM, les RSSI peuvent gagner en contrôle, flexibilité et profondeur tout en réduisant potentiellement les coûts. Mais ils devront investir des ressources importantes pour obtenir ces avantages.
John Burke est CTO et analyste de recherche chez Nemertes Research. Burke a rejoint Nemertes en 2005 avec près de deux décennies d'expérience technologique. Il a travaillé à tous les niveaux de l'informatique, y compris en tant que spécialiste du support utilisateur final, programmeur, administrateur système, spécialiste de bases de données, administrateur réseau, architecte réseau et architecte système.
