Stockage pour l’IA : Ctera donne une dimension contextuelle à sa plateforme

La solution de partage de fichiers entre plusieurs sites se pare d’une extension MCP qui doit permettre à des agents d’IA de mieux décrire ses contenus, pour que d’autres IA puissent s’en servir de manière plus utile dans leurs réflexions.

Ctera, qui édite une solution pour partager les mêmes fichiers entre plusieurs sites physiques, se développe. D’une part, via un partenariat avec Cloudian qui lui permet de proposer une solution enfin complète. D’autre part, en branchant les données qu’il partage à un serveur MCP, afin que des IA y puisent des connaissances contextualisées, qui plus est en suivant les mêmes droits d’accès et les mêmes priorités d’usage que les salariés.

Jusqu’ici, Ctera ne vendait pas le système de stockage central que ses logiciels partagent ; les entreprises devaient en acheter un de leur côté. Désormais, il propose celui de Cloudian en bundle. Et Cloudian fait de même de son côté. Il commercialise à présent son système de stockage objet avec les logiciels de Ctera, pour que les contenus stockés à un endroit par son produit soient accessibles en mode fichier à tous les salariés d’une entreprise, quelle que soit la succursale dans laquelle ils travaillent.

Concernant l’ouverture du partage des données aux IA, ce que Ctera appelle la Ctera Data Intelligence, il s’agit surtout maintenant de livrer sous une forme prête à l’emploi, par des LLM, diverses fonctionnalités développées depuis ces dernières années par l’éditeur. Fonctionnalités qui n’étaient pas initialement développées pour l’IA, mais qui lui feraient trop souvent cruellement défaut.

« Une étude récente montre que 95 % des pilotes d’IA générative en entreprise échouent. Pourquoi ? Tout simplement parce que tout le monde a cru qu’il suffisait de convertir toutes ses données privées au format vectoriel pour les soumettre à une IA. Sauf que si vous ne faites que cela, vous soumettez des données désorganisées, avec plein de versions de vos fichiers, des vieilles, des récentes », contextualise Aron Brand, le directeur technique de Ctera (en photo en haut de cet article), que LeMagIT a rencontré lors d’un récent événement IT Press Tour consacré aux acteurs du stockage qui innovent.

« Notre métier est justement d’organiser les données pour que notre système de partage fonctionne. Nous avons donc eu l’idée de connecter les IA à notre système d’organisation des données », argumente-t-il.

Du stockage unifié au stockage intelligent

À la base, Ctera propose de disperser un NAS entre plusieurs sites, en installant à chaque endroit un cache qui donne aux utilisateurs l’impression d’utiliser une baie de disques locale. Cette solution, Global File System (Ctera GFS), repose sur plusieurs composants. Outre le système de stockage S3 à acheter chez quelqu’un d’autre (ou à souscrire sous forme de service chez un hébergeur de cloud), il faut d’abord installer au plus proche de ce stockage le serveur virtuel Ctera Portal.

Ce serveur définit un nom de domaine et des règles d’accès qu’il partage avec tous les sites. Sur chaque site, justement, il faut déployer l’appliance Ctera Edge Filer, soit un NAS virtuel qui présente sur le réseau local le contenu du stockage central. Dans le cas où les utilisateurs seraient des télétravailleurs, l’appliance NAS est remplaçable par une app Ctera Drive qui fonctionne directement sur un poste Windows, Linux, Mac, ou sur un smartphone.

« Le déploiement classique de l’appliance consiste à installer sur site un petit serveur doté d’une petite capacité de stockage pour héberger les données que notre système évalue comme actives à cet endroit. Ainsi, nous vous garantissons la meilleure performance d’accès. Et aussi le prix le plus faible pour le stockage, car notre système réévalue régulièrement la pertinence de conserver une copie des données sur place ou de n’en conserver qu’une version sur le stockage central », explique Saimon Michelson, le directeur des alliances chez Ctera.

Le scénario d’usage initial est que chaque collaborateur enregistre ses documents dans le volume monté sur son poste ou présenté par le NAS, puis que tout le monde y accède par le même biais. Ctera n’est pas le seul à proposer une telle solution. On peut également citer Nasuni et Panzura.

En 2022, Ctera a ajouté à son Ctera Portal des métadonnées, pour indexer les fichiers selon certains critères, et des API, pour que des applications externes s’y connectent. En 2023, il devenait possible de répartir les données sur plusieurs systèmes de stockage centraux, selon leurs performances ou pour leur étanchéité, la solution se parant dans la foulée de toute une galerie de fonctions de cybersécurité. L’idée était alors de réunir divers silos de données en un datalake globalement sécurisé et apte pour l’analytique.

Depuis lors, Ctera a ajouté une fonction de gouvernance des données (console Ctera Insight, utilisable uniquement en SaaS, via AWS) et, l’été dernier, il a implémenté le protocole d’accès MCP. Celui-ci permet à Ctera Portal de partager ses données avec des LLM de manière contextualisée, de sorte qu’elles soient intégrables dans des flux composés dynamiquement par des agents d’IA générative.

« Nous sommes le seul fournisseur de stockage unifié à proposer un support natif de MCP. Ce protocole signifie que vous pouvez connecter n’importe quel LLM à notre système de gestion des fichiers. Dès lors, vous pouvez interroger une IA à propos de n’importe quelle information créée sur n’importe lequel de vos sites d’activité », explique Saimon Michelson.

Trouver du contexte, en faire des métadonnées

L’offre Ctera Data Intelligence est une option, commercialisée à part, qui avait été annoncée dès la fin 2024. À la base, il s’agissait essentiellement de proposer une sorte d’annuaire d’authentification unique pour que des individus utilisent ChatGPT et Microsoft Copilot avec les mêmes droits d’accès que ceux qu’ils avaient déjà sur la plateforme Ctera. Sous-entendu, si une entreprise a toutes ses données accessibles depuis Ctera, alors mieux vaut connecter une IA telle que ChatGPT ou Copilot à Ctera, plutôt que copier ces données dans un service de stockage prévu pour aller de pair avec ChatGPT ou Copilot, typiquement Microsoft OneDrive.  

Selon Aron Brand, il faudrait bien comprendre le vrai problème que pose OneDrive. Ce ne serait pas tellement une question de laisser partir des documents privés, secrets dans un cloud américain, qui coûte aussi des frais supplémentaires. Ce serait surtout qu’en les faisant sortir d’un stockage maîtrisé par l’entreprise, plus aucune règle interne ne protégerait les données. Et, typiquement, les utilisateurs qui n’ont pas le droit d’accéder à des fichiers en interne, pourraient subitement interroger sans limites leurs contenus avec Copilot.  

« Dans les 95 % des pilotes d’IA générative qui échouent en entreprise, 50 % sont dus à ce genre de problèmes de sécurité », affirme Aron Brand.

Dans sa version initialement prévue, Ctera Data Intelligence devait aussi automatiser toute une procédure qu’il faudrait sinon faire à la main. En l’occurrence, aller chercher les règles de Ctera Insight pour que Ctera Portal pousse les données concernées par une IA sur le serveur Ctera Edge Filer le plus proche de cette IA : soit en cloud s’il s’agit d’un service d’IA générative en cloud, ou sur site s’il s’agit d’un LLM installé sur des serveurs locaux. Et convertir à un moment les données au format vectoriel.

« Avant de démarrer une IA conçue pour prendre des décisions métiers, vous pouvez en utiliser une capable d’enrichir nos métadonnées afin de mieux indexer les contenus. »
Aron BrandDirecteur technique, Ctera

Sauf que Ctera a entretemps compris que la conversion au format vectoriel ne suffisait pas. La nouvelle mouture de Ctera Data Intelligence consiste donc à programmer les API de tous les modules de la plateforme Ctera pour offrir, en plus, une richesse fonctionnelle dans la préparation des données. « Avant de démarrer une IA conçue pour prendre des décisions métiers, vous pouvez en utiliser une capable d’enrichir nos métadonnées afin de mieux indexer les contenus. Par exemple, l’IA peut décrire les images, retranscrire des enregistrements audio, identifier qui a signé un contrat à quelle date, etc. Ces informations contextuelles, stockées à leur tour dans nos métadonnées, vous permettront à la fin de poser à une IA des questions analytiques très pointues », détaille le directeur technique de Ctera.

Et ce n’est pas tout. « Ces informations contextuelles vont aussi servir, toujours en amont, à mieux filtrer les données que vous allez soumettre, à retirer tout document qui contiendrait des informations sensibles, personnelles, confidentielles, risquées », ajoute-t-il.

« La fonction première de Ctera Data Intelligence, désormais, est véritablement de s’ouvrir à des agents d’IA compatibles MCP pour enrichir le contexte des données stockées dans GFS. »
Aron BrandDirecteur technique, Ctera

Aron Brand ne précise pas quelles sont exactement ces IA censées interpréter et filtrer les documents. Il est probable que, lorsque l’option sera disponible, il s’agisse pour l’entreprise cliente de déployer elle-même des LLM ou des agents d’IA adaptés. Ce qui est certain, en revanche, c’est que ces IA pourront désormais interagir avec les API de Ctera via le protocole MCP qu’elle supporte depuis quelques semaines. « La fonction première de Ctera Data Intelligence, désormais, est véritablement de s’ouvrir à des agents d’IA compatibles MCP pour enrichir le contexte des données stockées dans GFS. Nous encourageons d’ailleurs le développement d’outils experts, sur mesure – pour chercher précisément des informations contextuelles dans les données stockées – et qui pourraient être exécutés régulièrement pour prendre en compte les contenus des nouveaux fichiers au fur et à mesure qu’ils sont créés par les collaborateurs », explique Aron Brand.

Il précise que le fonctionnement de Ctera Data Intelligence ne devrait pas nuire aux performances des partages locaux, car cette couche a été conçue pour travailler directement dans le stockage central, typiquement sur le serveur qui exécute le système de stockage de Cloudian.

Pour approfondir sur Stockage en Cloud