Partage de fichiers : Arcitecta intègre le format vectoriel pour alimenter les IA

La solution australienne savait déjà partager un même contenu sous différents formats. Désormais, sa base d’indexation intègre des formats directement lisibles par des IA. Toutefois, il faut passer par un service tiers pour convertir les données en vecteurs.

L’éditeur australien Arcitecta, qui propose une solution pour partager des fichiers entre plusieurs sites, lance une nouvelle version optimisée pour le RAG. Ou, dit autrement, il s’agit d’une mise à jour de son produit qui prend désormais en compte la présentation de ses données au format vectoriel afin qu’une IA puisse les consulter et livrer une analyse plus pertinente.

« L’IA ne peut exister sans données. À partir du moment où notre proposition de valeur est de rationaliser tous les stockages de données d’une entreprise, où qu’ils se trouvent, en un seul accès à chaque endroit, nous nous sommes dit qu’il serait pertinent de mettre aussi toutes ces données à la disposition des IA », lance Jason Lohrey, le DG d’Arcitecta, à l’occasion d’un événement IT Press Tour consacré aux acteurs qui innovent dans le stockage.

De la collaboration entre individus à la collaboration entre systèmes

Contrairement à ses concurrents Ctera, Nasuni, Panzura et autres Auristor, qui proposent tous une simple passerelle NAS sur chaque site pour accéder aux fichiers stockés sur un serveur central, Arcitecta ajoute derrière chaque accès une base de données XML. Appelée XODB, celle-ci a pour fonction de stocker des paramètres censés accélérer les travaux sur les fichiers.

Son usage premier est de tenir compte de la distance qui sépare les différents sites géographiques d’une entreprise pour calculer quels morceaux de quels fichiers le système de partage Mediaflux d’Arcitecta peut transférer en amont à quels endroits de sorte que les utilisateurs ne subissent pas de délai de téléchargement via Internet lorsqu’ils travaillent.

Mais XODB est aussi capable de présenter à un utilisateur des données sous un format (accès SMB ou S3, typiquement) qui n’est pas celui d’origine (un partage NFS par exemple). Par le passé, cette même technologie a aussi servi à présenter à des plateformes d’analytique des données interrogeables en SQL, alors que leur format d’origine était le fichier partagé en SMB. La nouveauté est donc de présenter aussi ces données à un service qui ne sait lire que du format vectoriel.

« Cela n’est plus de la collaboration entre individus, cela devient de la collaboration entre systèmes. Vous allez par exemple vous servir de notre solution pour présenter à un service d’IA chez un hyperscaler les versions vectorisées des données que vous avez créées par ailleurs », ajoute-t-il.

Présenter les mêmes données sous des formats différents

Mais il y a une subtilité technique : la solution d’Arcitecta ne convertit pas elle-même les données d’un format à l’autre. Elle s’appuie sur, ou recommande, des services de conversion externes. Le seul mérite de la base XODB est de faire le lien entre différents formats de données.

Jason Lohrey prend ainsi l’exemple d’une entreprise qui enregistre des images de vidéosurveillance et qui souhaite les soumettre à une IA capable de dresser des rapports d’activité à propos des personnes filmées. Il suffit d’installer le logiciel Mediaflux d’une part sur le site où sont enregistrées les vidéos et d’autre part sur le site (éventuellement dans une VM en cloud) où s’exécute cette IA.

MediaFlux va montrer les mêmes contenus aux deux extrémités, mais, entre les deux, la vidéo aura été convertie en descriptions au format vectoriel par un service externe comme Wasabi AIR. D’un côté, les utilisateurs ne voient que des pixels, de l’autre l’IA avale des vecteurs. L’un des points forts de cette combinaison est qu’une personne identifiée une première fois dans les métadonnées de Wasabi AIR sera automatiquement identifiée dans les données vectorielles des vidéos suivantes dans lesquelles cette même personne apparaît.

« Techniquement, nous sommes passés d’une base XODB en deux dimensions - qui indexe tous les fichiers et stocke, pour chacun, une pile de métadonnées - à une nouvelle base XODB en trois dimensions qui, pour chaque élément précédent, stocke ses vecteurs », indique Eric Polet, le directeur Produits d’Arcitecta (en photo en haut de cet article).

« En pratique, vous envoyez vos fichiers et leurs métadonnées à un service qui les convertit en vecteurs et nous récupérons ces vecteurs pour les mettre dans XODB. De sorte que XODB devient la source de vos données, quelle que soit l’application avec laquelle vous souhaitez les lire », ajoute-t-il.

Selon Eric Polet, cet embarquement des vecteurs dans XODB a été créé à l’occasion d’un projet d’IA que devait mener un laboratoire de recherche sur le cancer affilié à l’université d’Harvard. « Ils n’arrivaient jamais à trouver la base de données vectorielle adaptée à leurs besoins, d’autant plus qu’ils partaient d’un LLM personnalisé par leurs soins, qui n’a rien à voir avec les standards d’OpenAI. Avec notre solution, il n’y a plus de base vectorielle à installer », dit-il.  

Du quasi-temps réel et le partage de milliers de milliards de fichiers

Outre le support du format vectoriel, Arcitecta a amélioré sa solution de deux autres manières : la prise en charge des modifications en quasi-temps réel et le support de 1000 milliards de fichiers par partage.

« L’enjeu du temps réel est né d’une demande des studios de postproduction de pouvoir lire depuis n’importe quel endroit de la planète un fichier mis à jour très régulièrement. Typiquement, il s’agit de permettre à des directeurs artistiques de valider un choix de colorimétrie, d’éclairage sur une séquence en cours de montage, sans devoir attendre que toute la vidéo soit montée », dit Eric Polet. Il précise que cette fonction est une option, le produit qui l’intègre s’appelant Mediaflux Realtime.

Cette option va de pair avec une amélioration globale de l’algorithme qui calcule comment précharger des fichiers sur certaines destinations. Arcitecta concède au passage que les excellents chiffres de transfert qu’il avait communiqués jusque-là à la presse (65 To par heure) n’étaient réalisables que sur des connexions privées en haut débit. Mais, désormais, il maintient qu’il est possible d’atteindre une telle vitesse avec des connexions sur des fibres publiques.

Le millier de milliards de fichiers partagés ensemble est quant à lui une extension de la faculté également récente de référencer des données archivées sur des bandes.

« Quand une entreprise gère des centaines ou des milliers de milliards de fichiers, c’est que nombre de ceux-ci sont des archives sur bande. Nos efforts dans ce sens concernent donc principalement la prise en charge des codes-barres dont chaque fournisseur d’une solution de stockage sur bandes se sert pour savoir quelle cartouche insérer dans le lecteur d’une bibliothèque de bandes », précise le DG d’Arcitecta.

« Quant au référencement d’autant de fichiers, nous sommes parvenus à réduire toutes les données d’index d’une entrée à seulement 75 octets. Personne n’atteint une telle densité », conclut-il.

Pour approfondir sur Administration du stockage