Gestion du stockage : Komprise filtre les données pour l’IA
L’éditeur, qui se contentait jusque-là d’indexer les fichiers pour optimiser leur stockage, ajoute une fonction pour scanner les contenus en quête de données sensibles, afin d’empêcher que celles-ci soient livrées à une IA.
Komprise, le logiciel qui déménage les fichiers pour rentabiliser au maximum les ressources de stockage, va s’enrichir d’ici à la fin du mois de la détection des données sensibles. Son éditeur éponyme argumente que la question des informations sensibles (détails ayant trait à l’identité, aux coordonnées bancaires, secrets commerciaux ou industriels, etc.) est d’autant plus critique depuis que les entreprises veulent soumettre leurs données à des intelligences artificielles, qui pourraient les réutiliser au-delà de tout contrôle.
« Le fait que la performance soit la caractéristique la plus importante en matière d’IA est un mythe », lance Krishna Subramanian, la cofondatrice de Komprise que LeMagIT a rencontrée, à l’occasion d’un récent événement IT Press Tour consacré aux acteurs de la Silicon Valley qui innovent en matière de stockage.
« Dans 95 % des cas, le sujet sera de connecter les données de l’entreprise à l’IA, pour qu’elle les analyse. Et la problématique la plus importante dans ce contexte, ce sera de transférer des données de manière sécurisée, réglementaire. »
Krishna SubramanianCofondatrice, Komprise
« C’est un mythe, parce que seulement 5 % des entreprises vont entraîner des modèles. Dans 95 % des cas, le sujet sera de connecter les données de l’entreprise à l’IA, pour qu’elle les analyse. Et la problématique la plus importante dans ce contexte, ce sera de transférer des données de manière sécurisée, réglementaire. C’est tout l’enjeu : il faut parer au risque d’une fuite. Il faut savoir quelles données on peut ou non transférer. Il faut pouvoir auditer quel salarié peut livrer quel contenu à l’IA », poursuit-elle en citant une récente étude du cabinet Gartner.
« Il est d’autant plus important d’ajouter de la gouvernance des données aux processus d’IA, que les entreprises s’en font l’idée fausse qu’ils fonctionneraient comme un ETL : prendre les données à un endroit, les transformer, les mettre à un autre endroit. Sauf que, contrairement à un ETL, vous ne maîtrisez pas l’enchaînement des étapes. »
« Même si vous demandez à une première IA privée de faire un tri des données sensibles, avant de donner du contenu à une IA publique destinée à l’analyser, vous ne savez pas si vos données sensibles n’iront pas tout de même s’exposer sur Internet. Nous pensons que la solution passe par une indexation en amont des contenus. C’est ce que fait notre solution », argumente-t-elle.
Des moteurs Open source pour analyser les contenus sur site
Historiquement, la solution de Komprise indexe des métadonnées qui résument les caractéristiques des fichiers exploités par une entreprise. Cet index permettait jusqu’ici – via le moteur de recherche du logiciel (Komprise Director) – de savoir quels types de fichiers étaient utilisés, à quelle fréquence et par qui. Il servait aussi à nourrir des moteurs de migration automatique qui déplacent les fichiers les moins utilisés vers des ressources de stockage moins chères (en cloud, sur une baie de disques moins performante…) ou, au contraire, qui rapatrient des archives en amont d’un projet.
En 2022, la solution a évolué avec l’ajout de connecteurs permettant de soumettre certaines données à des services d’analyse tiers. Il s’agissait notamment d’envoyer tous les fichiers images à Amazon Rekognition pour qu’il identifie leurs contenus et produise des descriptifs, qui allaient à leur tour nourrir l’index de Komprise. Parmi les possibilités, il y avait aussi celle de soumettre le tout venant des fichiers à des services d’identification des contenus sensibles. Amazon Macie, par exemple. Problème, ces services fonctionnent en cloud, en dehors des murs d’une entreprise cliente.
La nouveauté est que de tels services d’analyse de contenus sont désormais intégrés à la solution. Et qu’ils fonctionnent depuis un serveur de l’entreprise cliente, derrière ses firewalls. Et le moteur de recherche du logiciel dispose à présent de règles personnalisables pour lui indiquer d’étiqueter comme sensibles des fichiers ayant un type de contenu que l’utilisateur peut définir.
« Désormais, vos données ne quitteront plus votre datacenter. Il existe des moteurs Open source pour tous les types d’identification de contenus et nous les avons intégrés dans notre solution », assure Krishna Subramanian.
Une console pour commencer par trouver ce qu’il y a à protéger
Dans la démonstration du produit faite par l’éditeur, Komprise Director dispose d’un nouvel onglet « Workflows », depuis lequel il est possible de configurer un scanner de contenus et la fréquence à laquelle il doit être exécuté. La personnalisation d’un scanner commence par la sélection des données à traiter, soit en naviguant parmi les volumes de fichiers, soit selon des critères de recherche. Le procédé est itératif : on coche ce que l’on souhaite soumettre, puis on relance une autre recherche pour cocher encore plus de fichiers.
Précisons que la solution de Komprise ne gère pas elle-même le stockage des données. Elle se connecte à toutes les baies de disques qui partagent leurs contenus en mode fichier (NFS, SMB) ou objet (S3).
Ensuite, l’administrateur des données indique au workflow de trouver des données sensibles en fouillant parmi tous les contenus cochés. Pour ce faire, il a à sa disposition des bases de connaissances, notamment une base de données de toutes les formes d’écritures administratives qui servent à indiquer des adresses postales ou IP, des numéros d’identité ou bancaires, etc. Il peut aussi indiquer des termes en langage courant, ou encore des caractéristiques. Par exemple, tout fichier Excel manipulé par le service financier pourrait être le signe d’une donnée sensible.
Une fois le workflow démarré, il ajoute, dans l’index de Komprise, une nouvelle étiquette « données sensibles » à tous les fichiers qui en contiennent. Dès lors, il suffit de rester dans la console Director pour migrer les données vers une IA et le logiciel s’assurera que seuls les fichiers sains à traiter lui seront transférés.
« L’administrateur n’a pas lui-même accès aux contenus sensibles, ni depuis notre console ni depuis un accès direct aux systèmes de fichiers, puisque Komprise peut même redéfinir dans la foulée les droits d’accès sur les systèmes de stockage. Dès lors, qu’il fouille sur les partages, dans notre console, ou qu’il demande à une IA, un salarié ne pourra par exemple jamais connaître le salaire de l’un de ses collègues par exemple. Si cette information existe, elle est désormais verrouillée », conclut le démonstrateur.