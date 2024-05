Multiplier les accès parallèles vers une montagne d’archives sur bandes. L’éditeur italien QStar savait déjà présenter jusqu’à trois lecteurs de bandes comme un NAS afin de partager plus facilement leurs contenus sur le réseau. À présent, il décline son système monoserveur Archive Manager en une version en cluster, baptisée Global Archive Space.

« D’ordinaire, un serveur ne peut accéder qu’à une archive à la fois et donc elles sont lues les unes après les autres. Mais dans les cas d’usage modernes, les entreprises veulent exploiter toutes les données qu’elles ont archivées pour entraîner des IA sur leurs activités, ou lancer des simulations. Ce sont des calculs qui se font en parallèle », contextualise David Thomson (à gauche sur la photo), le directeur commercial de QStar, que LeMagIT a rencontré lors d’un événement IT Press tour consacré aux acteurs européens qui innovent dans le stockage.

Il insiste sur un point : dans ce genre de calculs, il n’est pas possible d’attribuer un lecteur de bandes à un serveur ; il faut que tous les nœuds de calcul accèdent à toutes les données archivées.

« Nous avons donc développé une nouvelle solution logicielle, Global Archive Space, qui fonctionne en parallèle sur 3 à 64 machines Linux ou Windows, toutes reliées à des lecteurs, et qui partage sur le réseau l’ensemble des données contenues sur les bandes, sous la forme d’un gros volume global », ajoute-t-il.

Accès multiples, caches et diffusion pour accélérer l’accès

Global Archive Space utilise des bandes formatées en LTFS, un système qui permet d’accéder à chaque fichier individuellement, sans avoir besoin de décompresser une archive .tar au préalable. Le système LTFS permet surtout à une bibliothèque de bandes d’indexer les fichiers sur l’ensemble des cartouches qu’elle héberge, de sorte à insérer la bonne cartouche dans un de ses lecteurs lorsqu’un serveur applicatif veut accéder à un fichier en particulier. De fait, Qstar dédie plutôt Global Archive Space aux utilisateurs de grandes bibliothèques de bandes.

Le système partage ensuite sur tous ses nœuds les contenus auxquels il accède, via des protocoles NFS, SMB ou S3 qui présentent chacun l’ensemble des données. Il est possible de configurer plusieurs instances de ces protocoles pour présenter différents lots de données avec chacun un nom de domaine dédié.

Concernant la parallélisation des accès, Global Archive Space équilibre la charge entre les nœuds de son cluster et reconfigure les routes à la volée en cas de panne ou de congestion. Pour ce faire, Global Archive Space dispose de ses propres enregistrements DNS pour piloter la répartition des flux et éventuellement présenter sur le réseau différents noms de domaines.

« Les applications utilisateur accèdent à l'espace de stockage par l'intermédiaire de plusieurs nœuds présentant le même domaine. En fonction du protocole d'accès, la charge peut être automatiquement équilibrée entre chaque nœud du domaine (c’est le cas de S3 ou d’un accès en mode HTTP) ou bien un nœud peut être chargé de router les paquets IP vers d’autres nœuds (en SMB, NFS) », précise David Thomson.

Les nœuds du cluster servent idéalement de cache pour éviter d’avoir à relire une même bande lorsque différents serveurs de calcul accèdent aux mêmes données. Qstar recommande que les machines qui exécutent son logiciel soient à minima équipées d’un Xeon E, de 32 Go de RAM et de 1 To de capacité disque.

Le système ne se contente pas de lire les archives. Il sait également à les écrire. S’il supporte un mode classique, où chaque répertoire en production est archivé vers un lecteur en particulier, Global Archive Space a la faculté de diffuser les sauvegardes sur plusieurs lecteurs à la fois, à la manière d’un RAID. Cette seconde option est à privilégier pour, ensuite, mieux paralléliser les lectures. Dans tous les cas, aucun effort de partitionnement n’est à faire sur la bibliothèque, le logiciel de QStar s’occupe de tout en amont.

Techniquement, chaque nœud du cluster Global Archive Space est relié en mode bloc à chaque lecteur de bandes – ou chaque bibliothèque de bandes – via des switches Fiber Channel ou SAS.

Cela dit, chaque nœud ne peut gérer en même temps que trois lecteurs de bandes. Si un serveur applicatif demande à un certain moment à un nœud d’accéder à une archive à laquelle il n’est pas connecté, alors le nœud interrogé demande automatiquement au nœud qui a un accès physique à cette archive (ou qui la contient de son cache) de remonter au serveur applicatif les données qu’il a demandées.

Enfin, si Global Archive Space est conçu par défaut pour les bandes, il peut aussi partager des archives stockées sur des supports optiques, ou hébergées dans des services de stockage objet, sur site ou en cloud. Le système sait d’ailleurs répliquer les contenus déjà archivés vers un autre type de support pour mieux les protéger ; par exemple depuis des bandes vers un service de stockage S3 en cloud.