article payant

Archivage : Atos-Origin pérennise les centaines de To de données de la BnF 

Par Reynald Fléchaux Le 29 octobre 2008 (11:49)

Rubriques : Formats et archivage Tags : atos - archivage - formats - zurich-financial

Ce n'est pas parce qu'une information est numérisée qu'elle est pérenne. Bien au contraire même comme le montre l'exemple de la Bibliothèque nationale de France (BnF). Après avoir acquis les infrastructures de stockage nécessaires, cette dernière se lance dans un vaste projet de conservation de son information numérique, Spar. Un projet remporté par Atos-Origin et qui fait la part belle aux logiciels libres.

Archivage : Atos-Origin pérennise les centaines de To de données de la BnF

Suite logique d'un projet monstre de déploiement d'une infrastructure de stockage (un marché remporté par StorageTek en 2005), la mise en place du système Spar (Système de préservation et d'archivage réparti) a été remporté au début de l'année par Atos-Origin. Avec, pour objectif : "la numérisation, la préservation et l'accès à l'information", explique Charlotte Fabre, responsable fonctionnelle sur le projet au sein de la SSII. Le tout concerne des volumétries très importantes - plus d'un million de Go prévus en 2010 -, puisqu'il s'agit d'une solution censée couvrir toute l'information numérique stockée par la BnF. Et à la préserver sur de très longues durées via notamment un stockage "intelligent".

La solution que bâtissent les équipes d'Atos-Origin (10 personnes sur le projet) - "un assemblage d'une quinzaine de logiciels libres", selon Charlotte Fabre - vient supplanter le logiciel de gestion des enregistrements en place, Infotel Arcsys. "La bascule ne se fera certes pas tout de suite, précise Charlotte Fabre. Mais, à terme, cette solution ne servira plus". A terme, c'est-à-dire quand Atos aura bâti les différents modules de la suite qui constitueront le futur système d'archivage de la BnF (sur la base de plates-formes comme Fedora ou Irods).

spar modules

Négocier avec les producteurs d'information

La première tranche ferme du contrat remporté par la SSII, et qui court sur 16 mois depuis janvier dernier, vise en effet à développer le noyau de Spar (reposant sur la norme OAIS - Open Archival Information System -, modèle conceptuel normalisé ISO destiné à la gestion, à l'archivage et à la préservation à long terme de documents numériques) et les sept modules clefs de la solution (versement pour la réception des données, stockage, gestion des données, gestion des droits, accès à l'information, administration, préservation).

spar global

En fonction de l'avancement de ce chantier, la BnF mettra en oeuvre la tranche conditionnelle de ce contrat, tranche d'une durée prévue de trois ans. La SSII espère remporter ce marché avant la fin de l'année. "Il s'agit là de mettre en place l'utilisation de Spar dans les différentes filières de la BnF, d'assurer le déploiement par type d'information et par processus métier", explique Charlotte Fabre. Et de préciser : "Par exemple, les services de numérisation de conservation et de production administrative n'ont pas les mêmes besoins, n'entrent pas le même type de fichiers dans le système, n'emploient pas le même mode de diffusion. Il s'agit vraiment d'une négociation entre des producteurs d'information numérique et le système Spar dont l'objectif est d'aboutir à des accord sur la qualité de service."

Changer de format pour anticiper l'obsolescence

C'est donc là que réside l'aspect conduite du changement du projet. Pas forcément le morceau le moins ardu, car, si tous les services ont leurs habitudes de travail et leurs besoins, il faut assurer l'homogénéité de l'information dans le système central. "Nous avons donc prévu de développer un module de pré-versement afin d'enrichir l'information entrée par les producteurs, afin de la rendre conforme aux attentes de Spar", ajoute la responsable fonctionnelle du projet.

Archivage : Atos-Origin pérennise les centaines de To de données de la BnF

L'autre gros enjeu du projet réside dans la pérennisation de l'information. "Il faut gérer les notions de formats et de supports de stockage", précise Charlotte Fabre. Le service à l'origine de l'information, le producteur, s'engage sur les formats en entrées, par exemple un .doc. Ce fichier devient alors dans Spar le master. "Un expert en pérennisation fera alors de la veille sur ce format pour décider des actions à mener sur ce fichier, par exemple des migrations", ajoute la responsable fonctionnelle. La règle : le master, autrement dit le fichier d'origine, est systématiquement conservé. Ces actions sont décidées sur la base d'un répertoire de formats nommé GDFR (Global Digital Format Registry).

1 800 To de données en 2014

A cet enjeu s'ajoute le besoin, classique en bibliothèque, d'associer des données aux contenus : description de l'information, données administratives ou relatives à la pérennisation, etc. "Ces informations sont stockées dans un fichier XML, appelé manifeste Mets (Metadata Encoding and Transmission Standard), précise Charlotte Fabre. Il est renseigné pour partie par les producteurs, puis complété. C'est l'un des rôles du module de préversement." Ce manifeste encapsule le document lui-même.

Complexité supplémentaire, ce n'est pas à proprement parler sur ce fichier XML que s'effectue la recherche d'information - via le moteur Virtuoso -, les données dudit fichier étant transformées dans un format RDF (Resource Description Framework, modèle de description de données sous forme de graphes développé par le W3C). "Ce choix s'explique pour des questions de volumétrie, précise la consultante d'Atos. En 2014, Spar doit renfermer pas moins de 1 800 To."

Rappelons qu'Atos Origin a également la charge de l'infogérance des systèmes d'information de la BnF. Le contrat, d'un montant de 15 millions d'euros, couvre les sept sites sur lesquels l'institution est installée, dont la bibliothèque François Mitterrand.

En savoir plus :

- Forum DLM, du 10 au 12 décembre

Organisé par la direction des archives de France (Ministère de la Culture et de la Communication), le forum vise à "mettre en lumière les réalisations et les nouvelles directions constatées au niveau européen dans le domaine de l’archivage électronique et de la gestion des archives".

- Le groupe PIN

Ce lieu d'échanges sur le Préservation des informations numériques, membre de l'association Aristote, s'est constitué en 2000 autour du CNES (Centre national d'Etudes Spatiales) et de la BnF. PIN se penche sur les "problèmes techniques, organisationnels, financiers, normatifs, méthodologiques, juridiques, etc. posés par la préservation à long terme de l'information sous forme numérique".

- La présentation faite par Atos-Origin du module versement de Spar pour le groupe PIN.

- Une présentation du projet Spar faite conjointement par le responsable du projet au sein de la BnF et par Atos-Origin.