Komprise, le logiciel qui déménage les fichiers pour rentabiliser au maximum les ressources de stockage, va s’enrichir d’ici à la fin du mois de la détection des données sensibles. Son éditeur éponyme argumente que la question des informations sensibles (détails ayant trait à l’identité, aux coordonnées bancaires, secrets commerciaux ou industriels, etc.) est d’autant plus critique depuis que les entreprises veulent soumettre leurs données à des intelligences artificielles, qui pourraient les réutiliser au-delà de tout contrôle.

« Le fait que la performance soit la caractéristique la plus importante en matière d’IA est un mythe », lance Krishna Subramanian, la cofondatrice de Komprise que LeMagIT a rencontrée, à l’occasion d’un récent événement IT Press Tour consacré aux acteurs de la Silicon Valley qui innovent en matière de stockage.

« Dans 95 % des cas, le sujet sera de connecter les données de l’entreprise à l’IA, pour qu’elle les analyse. Et la problématique la plus importante dans ce contexte, ce sera de transférer des données de manière sécurisée, réglementaire. » Krishna SubramanianCofondatrice, Komprise

« C’est un mythe, parce que seulement 5 % des entreprises vont entraîner des modèles. Dans 95 % des cas, le sujet sera de connecter les données de l’entreprise à l’IA, pour qu’elle les analyse. Et la problématique la plus importante dans ce contexte, ce sera de transférer des données de manière sécurisée, réglementaire. C’est tout l’enjeu : il faut parer au risque d’une fuite. Il faut savoir quelles données on peut ou non transférer. Il faut pouvoir auditer quel salarié peut livrer quel contenu à l’IA », poursuit-elle en citant une récente étude du cabinet Gartner.

« Il est d’autant plus important d’ajouter de la gouvernance des données aux processus d’IA, que les entreprises s’en font l’idée fausse qu’ils fonctionneraient comme un ETL : prendre les données à un endroit, les transformer, les mettre à un autre endroit. Sauf que, contrairement à un ETL, vous ne maîtrisez pas l’enchaînement des étapes. »

« Même si vous demandez à une première IA privée de faire un tri des données sensibles, avant de donner du contenu à une IA publique destinée à l’analyser, vous ne savez pas si vos données sensibles n’iront pas tout de même s’exposer sur Internet. Nous pensons que la solution passe par une indexation en amont des contenus. C’est ce que fait notre solution », argumente-t-elle.

Des moteurs Open source pour analyser les contenus sur site Historiquement, la solution de Komprise indexe des métadonnées qui résument les caractéristiques des fichiers exploités par une entreprise. Cet index permettait jusqu’ici – via le moteur de recherche du logiciel (Komprise Director) – de savoir quels types de fichiers étaient utilisés, à quelle fréquence et par qui. Il servait aussi à nourrir des moteurs de migration automatique qui déplacent les fichiers les moins utilisés vers des ressources de stockage moins chères (en cloud, sur une baie de disques moins performante…) ou, au contraire, qui rapatrient des archives en amont d’un projet. En 2022, la solution a évolué avec l’ajout de connecteurs permettant de soumettre certaines données à des services d’analyse tiers. Il s’agissait notamment d’envoyer tous les fichiers images à Amazon Rekognition pour qu’il identifie leurs contenus et produise des descriptifs, qui allaient à leur tour nourrir l’index de Komprise. Parmi les possibilités, il y avait aussi celle de soumettre le tout venant des fichiers à des services d’identification des contenus sensibles. Amazon Macie, par exemple. Problème, ces services fonctionnent en cloud, en dehors des murs d’une entreprise cliente. La nouveauté est que de tels services d’analyse de contenus sont désormais intégrés à la solution. Et qu’ils fonctionnent depuis un serveur de l’entreprise cliente, derrière ses firewalls. Et le moteur de recherche du logiciel dispose à présent de règles personnalisables pour lui indiquer d’étiqueter comme sensibles des fichiers ayant un type de contenu que l’utilisateur peut définir. « Désormais, vos données ne quitteront plus votre datacenter. Il existe des moteurs Open source pour tous les types d’identification de contenus et nous les avons intégrés dans notre solution », assure Krishna Subramanian.