Les universités allemandes face au défi d’archiver « pour toujours »

Les universités publiques allemandes doivent archiver leurs recherches au moins pour dix ans et ad vitam aeternam pour celles qui sont irremplaçables. Mais les technologies deviennent obsolètes au bout de 8 ans.

Archiver les données pour toujours, c’est le défi que s’est lancé l’université de Göttingen en Allemagne. Un défi, car, contrairement à ce que l’on pourrait croire, il ne s’agit pas simplement d’enregistrer les données au fur et à mesure sur des bandes que l’on stocke dans un endroit étanche.

« Les bandes ne sont pas éternelles. Elles ont une durée de vie de 20 à 30 ans. Mais il y a pire : la technologie qui permet de les gérer ne dure généralement que huit à dix ans. Se pose aussi le problème de toujours pouvoir récupérer les données. Est-on sûr que nous pouvons toujours lire aujourd’hui tel document sauvegardé avec Microsoft Word 95 ? », lance Ramin Yahyapour, professeur et DSI à l’Université de Göttingen en Allemagne.

« Nous avons de nombreux jeux de données qui sont considérés comme un patrimoine culturel et qui ne sont pas remplaçables. »
Ramin YahyapourProfesseur et DSI à l'Université de Göttingen, Allemagne

Ramin Yahyapour est surtout à la tête du GWDG, le département de l’université qui s’occupe d’archiver toutes les recherches universitaires. « Le code de conduite pour la recherche financée par des fonds publics en Allemagne exige désormais un archivage des données d’au moins 10 ans pour garantir la reproductibilité de la recherche. Mais en vérité, il faut aller bien au-delà. Nous avons de nombreux jeux de données qui sont considérés comme un patrimoine culturel et qui ne sont pas remplaçables. C’est pourquoi nous nous donnons la mission de conserver ces données pour toujours. »

Le GWDG, qui fournit le service d’archivage pour un grand nombre d’institutions publiques en Allemagne, a collecté des échantillons historiques issus des sciences sociales et naturelles. « Certains animaux, plantes et langues n’existent plus et ne peuvent donc pas être recréés. Dans nos archives, nous conservons par exemple les sons d’oiseaux dont l’espèce a disparu », explique Ramin Yahyapour.

Autre exemple de données à conserver à tout jamais, le GWDG archive – tous – les livres et objets du XVIIe siècle de la bibliothèque nationale de Göttingen. Il numérise les premiers, photographie sous tous les angles les seconds. Jusque dans les moindres détails.

Deux ans de migration pour prolonger la durée de vie des archives

À ce jour, les archives du GWDG pèsent 25 Po, dont 5 Po sont des données irremplaçables. 20 Po de données, dont celles à conserver pour toujours, sont stockés sur des bibliothèques de bandes Quantum StorNext. Les 5 Po restants sont les données qui sont encore consultées régulièrement et qui nécessitaient d’être stockées sur des disques durs, afin qu’elles soient directement accessibles. « Les bandes sont plus sûres, mais leur accès est trop lent », commente Ramin Yahyapour.

Le GWDG utilise des bandes depuis 15 ans. Il y a deux ans, il a modernisé ses bibliothèques de bandes avec des modèles plus récents et a eu la désagréable surprise de se rendre compte qu’elles ne lisaient plus les bandes les plus anciennes. Il lui a donc fallu se lancer dans un long processus de migration.

« C’est un travail assez complexe », dit Ramin Yahyapour. « Désormais, nous pensons en permanence à la prochaine migration. C’est devenu une mission de longue haleine. »

En l’occurrence, répliquer le contenu des anciennes bandes, avec d’anciennes bibliothèques, vers des nouvelles prend au GWDG deux ans. Plus que la simple copie des fichiers, l’équipe de Ramin Yahyapour s’attache à convertir tous les fichiers dans des formats plus modernes. « Il faut beaucoup de planification au préalable. Le simple fait de l’archiver n’est pas suffisant », se désole-t-il. Pour autant, il se félicite du succès de cette entreprise, car, jusque-là, aucune donnée n’a été perdue.

Penser l’archivage différemment avec le stockage objet

Face à cette tâche titanesque, le GWDG s’est rapproché de son fournisseur, Quantum, pour trouver une solution. « L’archivage des données à long terme est en effet devenu une préoccupation pour un certain nombre de nos clients, notamment dans les domaines qui touchent aux sciences de la vie et aux médias », reconnaît Éric Bassier, responsable des produits chez Quantum.

« L’archivage des données à long terme nécessite [...] un logiciel intelligent qui doit connaître les emplacements de stockage et saura faire des copies au bon moment, au bon format, sur le bon support. »
Ramin YahyapourProfesseur et DSI à l'Université de Göttingen, Allemagne

Quantum ne peut pas s’engager sur l’obsolescence des générations successives de bandes LTO. En revanche, le fournisseur estime qu’une technologie doit faciliter la migration des contenus entre les formats et les supports : le stockage en mode objet.

« L’archivage des données à long terme nécessite en somme un logiciel intelligent qui doit connaître les emplacements de stockage et saura faire des copies au bon moment, au bon format, sur le bon support. Cette promesse est portée par le stockage objet, car il fournira toutes les métadonnées nécessaires pour alimenter un tel logiciel avec les informations dont il aura besoin pour travailler », estime Éric Bassier.

Quantum n’indique pas quel logiciel remplirait cette fonction, mais estime qu’une solution est en bonne voie. Une solution identifiée par LeMagIT pourrait être celle d’Igneous.

Pour mémoire, Quantum a embrassé le stockage objet il y a un an, avec le rachat d’ActiveScale. Récemment, son concurrent Fujifilm s’est aussi lancé dans la modernisation du principe d’archivage sur bandes en passant par du stockage objet.

Selon Éric Bassier, les entreprises entrent à présent dans une ère où l’archivage sera pensé de manière radicalement différente.

Pour approfondir sur Archivage

Close