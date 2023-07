La capacité sans fin d’un service de stockage objet en cloud, conjugué à la facilité d’accès d’un mode fichier compatible Posix. Telle est la promesse de CunoFS, le système de stockage mis au point par l’éditeur britannique PetaGene, dans le but de résoudre un problème qui s’est récemment répandu dans les entreprises : faire du calcul hautes performances sur de très grandes quantités de données.

La problématique concerne l’intelligence artificielle, mais aussi la production vidéo, la recherche pharmaceutique ou encore la détection de fraude qui, pour être plus efficaces, se nourrissent le plus rapidement possible d’informations venues des quatre coins du monde. Une tendance qui se serait accélérée dans les entreprises depuis 2020. Or, lire/écrire rapidement et le faire sur un espace de stockage gigantesque sont deux utilisations extrêmes qui, mises ensemble, font d’ordinaire exploser les coûts.

« Pour économiser sur les coûts de la capacité, la solution est de passer par du stockage objet, en local ou en cloud. Problème, vos applications de calcul ne sont pas faites pour ça. Elles n’ouvrent et n’enregistrent que des fichiers, typiquement sur un NAS. Elles n’envoient pas de requêtes HTTP comme il faut le faire en S3 », résume Dan Greenfield (au centre sur la photo), cofondateur et PDG de PetaGene. LeMagIT a pu le rencontrer lors d’un événement IT Press Tour organisé au début de l’été, à Berlin, consacré aux entreprises européennes qui innovent dans le domaine du stockage.

Mettre un accès NAS aux buckets S3 Dan Greenfield illustre son propos d’exemples : « sur AWS, un stockage S3 de 1 To auquel vous accédez fréquemment coûte 276 dollars par mois. Avec un NAS standard, telle que leur offre EFS, la facture grimpe à 3600 $/mois. Et si vous souhaitez disposer des mêmes accès parallèles que ceux que vous offre S3, il faut alors opter pour leur service FSx Lustre, dont la facture pour 1 To peut s’élever à 7200 $/mois ! » Par ailleurs, les entreprises excluraient de convertir leurs applications pour qu’elles travaillent en S3 plutôt qu’en mode fichiers. Au-delà du protocole de communication (des API REST à écrire alors qu’il suffit de passer par l’OS hôte pour accéder à des fichiers), il faudrait changer aussi la logique des algorithmes et les habitudes des utilisateurs. En mode objet, il n’y a pas de notion de répertoires, pas de gestion des étiquettes Posix (droits par utilisateur et/ou groupe d’utilisateurs), pas de modification, mais la création d’une nouvelle version, etc. La migration serait trop longue, trop coûteuse. Pour contourner le problème du coût de stockage plus élevé en NAS, l’approche traditionnelle consiste à ajouter une passerelle frontale qui dispose d’un accès en mode fichier (un NAS qui partage son contenu en NFS ou SMB) et qui convertit à la volée les fichiers en objets. Un exemple de passerelle est le logiciel Open source s3fs. « Le problème de ce type d’architecture est que la passerelle crée un goulet d’étranglement, qui met en file indienne tous les accès que des serveurs peuvent faire en parallèle », dit Dan Greenfield. Et de préciser que ces accès se feraient en parallèle s’ils étaient communiqués avec le protocole S3. « Notre solution consiste donc à installer une passerelle fichier/objet sur chaque serveur qui exécute les applications : c’est CunoFS », enchaîne-t-il. Et de faire la démonstration du produit : CunoFS monte sur chaque serveur où il est installé un volume fichiers dont le chemin Posix est « /cuno/s3 » et qui pointe vers le bucket indiqué dans les préférences. Dès lors, il devient possible sur ce serveur Linux de naviguer dans des répertoires avec la commande « cd », d’y extraire les fichiers d’une archive avec la commande « tar », de changer les droits d’accès avec « chmod », de filtrer des contenus avec « grep », etc.

Beaucoup plus rapide que des NAS traditionnels Manifestement, CunoFS ne sert pas qu’à éviter le goulet d’étranglement d’une passerelle unique : il permet aussi d’accélérer les accès au-delà de la vitesse offerte par des NAS traditionnels. Selon des chiffres de performances montrés par PetaGene, CunoFS installé sur un serveur virtuel d’AWS permet d’écrire le code source du noyau Linux en 128 secondes vers un stockage S3 et de le relire en 21 secondes. Faire les mêmes opérations depuis un serveur applicatif vers le service NAS EFS prend respectivement 6 et 10,5 minutes. Ici, l’écriture est plus rapide que la lecture, car EFS utilise des caches. En passant par une passerelle NAS/objet externe comme s3fs, l’écriture de ce même code depuis le même serveur, vers le même stockage objet S3 prend un peu plus de deux heures. Tandis que la relecture prend environ un quart d’heure. Autre exemple, qui parlera plus aux entreprises utilisatrices de frameworks d’IA, un serveur PyTorch hébergé sur GCP écrira à la vitesse de 260 Mbit/s vers un service de stockage objet en passant par la passerelle s3fs, à la vitesse de 350 Mbit/s vers un NAS qui ne nécessite pas de conversion et à la vitesse de 20 Gbit/s si le serveur PyTorch est équipé de CunoFS. Comment CunoFS parvient-il à lire/écrire plus rapidement des fichiers qu’un accès NAS qui n’a même pas besoin de convertir les accès en requêtes HTPP ? Tout simplement parce que CunoFS n’est pas qu’une passerelle locale, c’est aussi un outil de compression à la volée particulièrement efficace. Il est plus rapide, car il transfère beaucoup moins de données.