Stockage : Caeves connecte les fichiers à l’IA CoPilot, via Azure
La startup a développé une passerelle pour mettre tous les fichiers d’une entreprise dans un service de stockage peu cher d’Azure et, de là, les soumettre à l’IA de Microsoft, sans avoir besoin de configurer un RAG.
Simplifier radicalement le déploiement et les coûts d’une infrastructure d’IA pour les clients de Microsoft. La startup américaine Caeves a mis au point une passerelle, à installer sur site ou dans une VM en ligne, qui déplace les données froides d’une entreprise vers Azure, le cloud de Microsoft, pour les transformer en base de connaissances interrogeable par CoPilot, l’IA de Microsoft 365.
« Notre ambition est d’aider les entreprises à tirer parti de leurs décennies de données froides. À partir d’Azure, nous les partageons via tous les protocoles d’accès en mode fichier, pour les utiliser dans toutes les applications historiques, et nous les mettons à la disponibilité des traitements modernes de Microsoft 365 », argumente Jaap van Duijvenbode (en photo en haut de cet article), le directeur produit de cette startup qui cherche à se développer en Europe.
« Sur ce dernier point, nous avons un moteur qui contextualise leur contenu, de sorte qu’il devient possible d’y trouver des informations pertinentes avec la barre de recherche de Microsoft 365 ou la barre de prompt de CoPilot », détaille-t-il, lors d’une rencontre avec la presse, à l’occasion d’un événement IT Press Tour consacré aux acteurs du stockage de données qui innovent.
Et d’ajouter : « le futur des données froides n’est pas de les entreposer sur des supports toujours moins chers pour les conserver en grande quantité sans rien en faire. Leur destin est de devenir de la propriété intellectuelle qui sert à enrichir l’entreprise. »
Rentabiliser les données froides
Caeves a des arguments à tiroirs. Sans même parler d’IA, les entreprises qui stockent leurs fichiers dans le service Azure Files, généralement pour les partager entre tous leurs services, pourraient déjà diviser par vingt la facture de ce service en passant par Caeves. Car la fonction première de ce logiciel est de mettre ces données sur un Azure Blob, le service de stockage en mode objet du cloud de Microsoft, dont le tarif est inférieur.
Selon Jaap van Duijvenbode, Azure Files est facturé dans les 70 dollars par mois par téra-octet. Dans un premier temps, Caeves déplace les données sur un tiers « chaud » (rapide) d’Azure Blob, généralement facturé dans les 18 dollars par mois par To. Au bout d’un délai réglable, elles sont déplacées sur un tiers « frais » moins cher, puis encore une fois vers un tiers « froid », qui ne coûte plus que 3,6 dollars par mois par To.
Mais l’essentiel des entreprises que Caeves cible sont plutôt celles qui entreposent leurs fichiers froids chez elles. La startup leur promet de transformer ces données qui coûtent du stockage pour pas grand-chose en mine d’or, grâce à l’IA CoPilot, qui peut s’en servir pour produire des analyses commerciales dès lors qu’elles sont stockées dans Azure.
« Par exemple, les équipes de R&D des entreprises ont souvent le sentiment qu’un projet initié des années auparavant pourrait être utile dans le cadre d’une nouvelle activité. Mais personne ne va chercher à en retrouver les détails parce qu’il faudrait commencer par fouiller pendant une semaine dans les archives pour retrouver quelle cassette LTO restaurer. Notre solution se branche sur vos bibliothèques de bande pour tout mettre dans Azure et rendre tout ce qu’il y a de pertinent accessible en une requête », promet-il.
D’ordinaire, CoPilot analyse seulement les fichiers qui ont été créés en ligne, au sein de Microsoft 365. Lui soumettre d’autres données revient à mettre en place un flux complexe d’importation, de transformation, et d’indexation des données qui demande des compétences de data scientists. L’intérêt de la solution Caeves est que toute cette chaîne, dite de RAG, est transparente.
Utiliser des fichiers, mais payer seulement du stockage objet
Techniquement, la passerelle de Caeves est une machine virtuelle qui fait office de NAS SMB ou NFS pour partager sur le réseau local les données dont elle a la charge. En tâche de fond, elle déplace au fil de l’eau tous les contenus vers un service de stockage en mode objet d’Azure, que l’entreprise cliente doit payer à part. Jaap van Duijvenbode donne un détail : cette VM exécute un environnement Windows Server avec un pilote modifié pour que le système de fichiers communique directement avec la fonction Azure Data Movement Library du cloud de Microsoft.
« Il existe plusieurs possibilités de déploiement. Vous pouvez installer cette VM dans le cloud, si vos données sont stockées en ligne, sur site, sur un serveur qui partage des fichiers, et plus particulièrement dans les succursales pour agglomérer leurs capacités de stockage dans un seul service sur Azure », dit-il.
« Une idée intéressante avec les succursales est que notre système leur permet en pratique d’utiliser un NAS commun : les fichiers enregistrés à un endroit sont accessibles aux autres emplacements géographiques de la même entreprise », ajoute-t-il, en argumentant que sa solution reviendrait moins chère que des logiciels dédiés à cette fonction, dont Panzura et Nasuni. Et aussi le service Azure Files.
L’éditeur donne un chiffre : il faut en moyenne une semaine après le déploiement de la VM Caeves pour que 500 To de données soient transférés vers Azure Blob. Durant ce laps de temps, la VM continue de partager les documents depuis leur emplacement d’origine.
Un autre avantage de la solution est qu’Azure a lancé ces derniers temps une fonctionnalité dite « Smart Tiering » qui range automatiquement les données dans le bon tiers, selon des règles définies par l’utilisateur. La passerelle de Caeves accède à cette fonctionnalité pour remettre les fichiers dans le tiers chaud, quand l’utilisateur cherche à les rouvrir. Soit parce qu’il navigue dans le répertoire logique qui les contient. Soit parce que les fichiers en question ont été cités parmi les résultats d’une requête formulée depuis CoPilot ou la barre de recherche de Microsoft 365.
Une base Graph et des métadonnées pour une IA plus efficace
En pratique, Caeves soumet les données qu’il transfère à une première IA pour générer des métadonnées qui serviront à retrouver les contenus. Il est à noter que les métadonnées préservent entre autres les droits d’accès originaux aux fichiers, pour peu qu’ils proviennent d’un système de fichiers Microsoft, de type NTFS. Ces droits sont maintenus ensuite dans CoPilot et le moteur de recherche de Microsoft 365, afin qu’un utilisateur puisse seulement interroger les données sur lesquelles il a autorité.
Cette IA indexe par ailleurs les contenus dans une base de type Graph, le format dont se sert CoPilot pour interroger des connaissances.
Il est intéressant de noter que les IA modernes utilisent plutôt une base de données de type vectoriel. Une base vectorielle permet de trouver des réponses qui contiennent les mots importants contenus dans la question. Elle est donc particulièrement adaptée aux IA capables de dérouler des détails sur un sujet (son historique, son fonctionnement, etc.). En revanche, seule une base de type Graph est capable de trouver des réponses en relation avec le sujet. Elle est donc plus adaptée pour fournir un contexte, typiquement lister les concurrents d’une marque sur un marché donné.
Caeves argumente ainsi que cette base Graph pour trouver le contexte, couplée aux métadonnées afin de retrouver les détails, aboutirait à une IA plus efficace pour le commun des collaborateurs travaillant sous Office.
Précisons qu’une base de type Graph est d’ordinaire bien plus compliquée à alimenter qu’une base vectorielle, car il faut créer des métadonnées à la main, alors qu’il existe des moteurs dits d’embeddings pour remplir automatiquement une base vectorielle. Caeves semble résoudre le problème en automatisant la création des métadonnées. Selon la compréhension du MagIT, le contexte sera donc basé sur l’équipe ayant créé les documents originaux (à quelle date, dans quels dossiers, où sont rangés quels autres documents).
La génération des métadonnées par une IA, l’indexation des contenus dans la base Graph, la connexion entre cette base Graph et CoPilot, le déplacement d’un tiers de stockage à l’autre, ainsi que la réalisation de snapshots réguliers pour retrouver des données effacées sont pour leur part exécutés par un autre moteur de Caeves. Celui-ci fonctionne depuis Azure. Il est préinstallé par la startup et l’entreprise cliente n’a pas à s’en occuper.
L’éditeur affirme que ce moteur serait capable d’indexer un million de fichiers par jour. Toutefois, si une entreprise a besoin d’en indexer plus, elle peut souscrire momentanément à une option consistant à multiplier les instances de ce moteur.
Pour approfondir sur Stockage en Cloud
-
Copilot Cowork, agents IA : Microsoft se rallie à Anthropic
-
Avec Secoda, Atlassian s’équipe d’un catalogue de données pour ses agents Rovo AI
-
IA agentique : Microsoft étoffe sa modélisation sémantique et ses outils de recherche
-
Stockage pour l’IA : Ctera donne une dimension contextuelle à sa plateforme
