Archivage : le CINES met en place une solution de conservation de documents mutualisée 

Le 08 avril 2009 (18:39) - par Christophe Bardy

Imprimer Envoyer par e-mail

Rubriques : Archivage - Open source Tags : sun - archivage - stockage - cines

Le Centre informatique national de l'enseignement supérieur de Montpellier, notamment connu pour ses activités dans le monde du calcul scientifique, vient de mettre en oeuvre une nouvelle plate-forme d'archivage pérenne destinée à la conservation des documents numériques produits par le milieu de l'enseignement supérieur et de la recherche. La plate-forme, fournie par Sun et Infotel, accueille notamment les archives des thèses, mais aussi les archives numériques des revues en sciences humaines et sociales et a vocation à élargir son parc d'utilisateurs. Elle se conforme au modèle OAIS.
Le CINES en bref 

cines

Le centre informatique national de l'enseignement supérieur, basé à Montpellier est l'un des principaux centres de calcul français et héberge notamment le supercalculateur Jade, figurant au 14e rang du classement Top500 des supercalculateurs mondiaux.

Outre son rôle de centre de centre de ressources techniques, il a pour mission de fournir des services d'archivage pérenne pour l'enseignement supérieur et la recherche avec sa plate-forme PAC.

Basé à Montpellier, Le centre informatique national de l'enseignement supérieur est notamment connu pour ses activité en matière de calcul scientifique. Il héberge notamment le plus puissant des supercalculateurs français, le super-calculateur Jade (147 Tflops), un cluster assemblé à base de serveurs lames Xeon E5472 SGI Altix ICE 8200 classé au 14e rang mondial au classement Top500. 

Le CINES a toutefois une seconde mission moins connue, celle de la conservation et de l'archivage à long terme sous forme numérique de l’information et des documents générés par la communauté de l'enseignement supérieure et de la recherche. Dans le cadre du décret d'août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses, le CINES travaille par exemple avec l'Agence bibliographique de l'enseignement supérieur pour fournir un service d'archivage pérenne des thèses au format électronique. Le CINES fournit aussi des services d'archivage pérenne pour les revues de sciences humaines et sociales numérisées par l'Université Louis Lumière de Lyon (Lyon 2), dans le cadre du programme Persée. C'est dans ce cadre, que le centre a récemment investi dans la mise en oeuvre d'une nouvelle plate-forme d'archivage fournie par Sun et Infotel.

20 To pour l'archivage pérenne de documents électroniques

Comme l'explique Olivier Rouchon, en charge du projet au CINES, le centre avait dans un premier temps bâti sa propre plate-forme avec des serveurs Dell et des logiciels développés sur la base de composants libres. Cette plate-forme de première génération, baptisée PAC 1.0 ( Plate-forme d’Archivage au CINES v1.0), dont la capacité de stockage était limitée, a largement servi de prototype et de validateur pour les concepts d'archivage pérenne au CINES. C'est en effet sur cette base que le centre a lancé en 2007 un appel d'offre pour la mise en oeuvre d'une plate-forme d'archivage plus industrielle susceptible d'être mutualisée entre ses différents utilisateurs. Cette seconde mouture de la plate-forme d'archivage du CINES est entrée en production en 2008.

pac techno 
La plate-forme technique PAC v2.0 du CINES

Côté serveurs et stockage, le coeur de cette PAC v2.0 s'appuie sur deux serveurs applicatifs Sun Fire X4150 sous Linux, dont un serveur de production et un second serveur dédié aux tests, mais pouvant aussi faire office de serveur de production secondaire en cas de chute du serveur principal. Le tout est relié à deux baies de stockage Fibre Channel StorageTek 6140 d'une capacité de 20 To – avec la capacité d'évoluer à 40 To. La première baie héberge une copie en miroir des documents stockés sur la seconde. Les données sont également sauvegardées sur bandothèque. La partie logicielle de la plate-forme est fournie par Infotel avec son logiciel d'archivage Arcsys, un logiciel auquel se sont ajoutés des développements sur mesure afin d'ingérer les données à archiver selon les spécifications du CINES.

Comme l'explique Olivier Rouchon, le projet a été mené rapidement. L'appel d'offre a été lancé en juillet 2007 et les vainqueurs notifiés en décembre 2007, pour une mise en production en mai 2008. La période de développement et de tests a été concentrées sur 3 mois, une période relativement courte qui s'explique notamment par le fait que la v1.0 de la plate-forme, développée en interne, a permis de fournir les jeux de données d'essais et les outils de test et de validation. L'ensemble logiciel plus matériel a coûté environ 300 000 € au CINES (hors les redevances de licences annuelle et support matériel au dela de la 3e année).

Une plate-forme conforme au modèle OAIS (ISO 14721)

Sun et Infotel l'ont emporté face à Hitachi - et son système HCAP - Everteam, et Atempo. Pour Olivier Rouchon, c'est le rapport qualité/prix et la maturité de la solution proposée par Sun qui ont permis au constructeur de l'emporter. “ Aucune des 4 offres ne remplissait 100% du cahier des charges sans développement spécifique. Il nous fallait notamment un module d'ingestion des archives cohérent avec le modele OAIS. C'est sur cette partie que les équipes d'Infotel ont été les meilleures.

OAIS (Open Archival Information System) est un modèle conceptuel pour l'archivage et la préservation à long terme de documents numériques. Développé à l'origne pour le monde de l'aéronautique et du spatial il a été approuvé comme standard par l'ISA sous la référence 14721:2003. C'est aujourd'hui le modèle qui fait référence pour la conservation à long terme de documents. Très tôt OAIS a intéressé les acteurs de l'archivage public, sous l'impulsion d'ailleurs du CNES (Centre national d'Etude Spatial) qui a agit comme un aiguillon pour l'adoption du modèle au sein de l'administration française.

Au CINES l'usage d'OAIS était incontournable : Le centre se conforme en effet aux préconisations de la P2A (Politique et pratiques d'archivages) définie en juillet 2006 par le SGDN (Secrétariat général de la défense nationale) et par la DCSSI (Direction Centrale de la sécurité des Systèmes d'information), des préconisations qui reprennent les concepts du modèle OAIS pour définir la politique d'archivage publique.

Un processus scrupuleux d'ingestion et de validation des documents à archiver

Comme l'explique Olivier Rouchon, chaque document entrant doit se composer de deux parties. La première est un fichier sip.xml – pour Submission Information Package -, décrivant le document dans son projet d’archives, le document proprement dit et les fichiers qui le composent (le tout au format Dublin Core). La seconde est le dossier comprenant les différents documents à archiver. Chacun de ces documents doit se conformer à l'un des formats acceptés par la plate-forme (HTML, PDF, TXT, XML; GIF, JPEG, TIFF, PNG, SVG, WAV, AIFF, AAC, Vorbis, MJPEG2000, MPEG4, Theora) et est vérifié avant son entrée, afin de valider sa conformité.

Une fois cette opération effectuée, le fichier de métadonnées sip.xml se voit enrichi de données internes à la plate-forme. Il se voit ainsi attribuer une date d'archivage, un identifiant unique et accueille l'ensemble des empreintes numériques calculées pour chaque fichier à l'aide d'un algorithme de Hash (SHA-256). Il devient alors un fichier aip.xml – pour Archival Information Package. C'est ce couple dossier et aip.xml qui constitue l'archive conservée par la plate-forme.

pac archi

En l'état, la plate-forme PAC v2.0 est interfacée avec l'outil STAR des bibliothèques universitaires, ce qui permet le versement transparent des thèses reccueillies par les universités et grandes écoles dans le système. Elle sert aussi à fournir l'archivage pérenne des revues de sciences humaines et sociales. Au cours de ses trois premiers mois d'exploitation, la plate-forme a accueilli près de  150 000 archives et le CINES estime que près de 10 To de données devraient être archivées d'ici la fin 2009. Le rythme de stockage des données pourrait toutefois s'accélérer car la vocation de la plate-forme est d'être mutualisée plus largement. Elle devrait ainsi rapidement accueillir de nouveaux supports, notamment les documents sonores provenant du CRDO (Centre de ressources pour la description de l'oral) - une entité du CNRS dont la mission est de numériser des fonds documentaires sonores – et les cours universitaires de Canal-U (documents en provenance du centre de ressources et d'information sur les multimédias pour l'enseignement supérieur).

En savoir plus

Le site du CINES

Le groupe de travail PIN (pérennisation de l'information numérique)

Le projet Persée

Le document de référence P2A

Le CINES travaille aussi en relation étroite avec d'autres acteurs de l'archivage public notamment à des fins de partage d'expérience mais aussi de collaboration (notamment en matière de réplication distante des archives). L'un des intérêts de la plate-forme PAC est d'ailleurs que le CINES est propriétaire du code développé et qu'il a repris la main sur le code en interne. Le code des applications de la plate-forme est ainsi disponible en ligne et réutilisable par d'autres acteurs de l'archivage de documents. La mutualisation ne s'arrête ainsi pas à la seule plate-forme PAC.

livres blancs avec LesSourcesIT.fr

Guide en 10 étapes pour l’achat d’une solution CRM adaptée

Le processus d'acquisition d'une solution CRM est différent de la procédure classique suivie pour les achats informati…


Démystifier les mythes sur le 10Gigabit Ethernet

Alors que le 10Gigabit Ethernet (GbE) est largement disponible depuis plusieurs, la technologie et encore nouvelle pour …

vues 1502 lectures commentaire 2 commentaire(s) recommandation notez cet article
2

Réagissez à cet article

Votre Pseudo

Commentaire

Pertinence du commentaire : 3
Par Bertrand Le Quellec
 Le 10/04/2009 à 12:47
Ayant participé au projet pour le compte d'Hitachi Data Systems et d'Atempo, je me permets de réagir à cet article, puisque ma société est directement citée.
En effet, l'article ne donne pas la date de décision sur les fournisseurs retenus et de mise en oeuvre du projet. Ceci est bien regrettable, car le projet est ancien au regard de la "vie informatique". Il date de plus de 18 mois et, depuis, l'offre HDS et Atempo a fortement évoluée.
Hitachi et Atempo ont en effet perdu, en grande partie, pour des raisons de jeunesse de leur offre et surtout d'un prix non adapté. Je ne voudrais pas que le lecteur reste sur une impression et une vision figée de ce qui peut être proposée aujourd'hui au travers d'un prix (30K€ pour 4To utile, comprenant matériel, installation et maintenance 36 mois 7j/7 24h/24) et de la partie test du projet (test de dépôt, de consultation et d'indexation réalisables dans des images VMware).
Depuis plus de 18 mois, l'état du marché a fortement évolué ainsi que les acteurs (Sun...). J'espère donc que le lecteur sera évaluer les offres réactualisées et faire jouer la concurrence sans préjuger d'un état non actuel décrit par l'article.
Hitachi et Atempo ont su apprendre et mûrir pour répondre efficacement à des projets aussi stimulant et engageant que celui du CINES.
Noter ce commentaire
Pertinence du commentaire : 3
Par Christophe Bardy
 Le 11/04/2009 à 19:42
Contrairement à ce que vous écrivez, l'article précise que l'appel d'offre a été lancé en juillet 2007 et les vainqueurs notifiés en décembre 2007. Il ajoute aussi que la mise en production a eu lieu en mai 2008 après 3 mois de travaux de développement. Il ne cache donc pas que le déploiement a déjà près d'un an. Pour nous cela ne pose d'ailleurs pas de problème : Cela reste un projet intéressant tant de part son envergure que du fait des solutions mises en oeuvre. De plus, si l'article cite les sociétés qui ont participé à l'appel d'offre ainsi que le budget global du projet, il se garde bien d'en tirer des conclusions sur l'évolution des offres des différents constructeurs depuis 18 mois (et je vous l'accorde, elles ont évolué, même si fondamentalement les concepts de l'archivage pérenne n'ont pas été révolutionnés en 18 mois).
Ainsi, il est par exemple vraisemblable que Sun n'aurait pas répondu aujourd'hui avec les même baies et aurait sans doute privilégié des solutions bien moins coûteuses comme le Sun Storage 7000. Sur d'autres projets d'archivage, il est aussi vrai que les atouts des appliances CAS telles que le HCAP ou comme le Centera d'EMC sont séduisants et que Sun n'a pas d'offre équivalente depuis l'abandon de ses appliances "Honeycomb" (Sun StorageTek 5800). Bref tout est question de projet et de budget (et parfois de choix d'architecture quand ce n'est pas de préférence de fournisseur).
Enfin, je suis d'accord avec vous sur le fait que l'usage de serveurs virtualisés pourrait permettre des gains intéressants tant fonctionnels qu'économiques sur la partie consultation ou indexation. Mais à titre personnel et pour des applications embarquées de ce type, ma préférence irait plutôt à un hyperviseur gratuit tel que XenServer de Citrix, qu'à un ESX Server bien plus coûteux, et qui ne présente que peu d'avantages sur la solution de Citrix pour un déploiement de deux ou trois noeuds serveurs...
Noter ce commentaire
publicité
publicité
Les dossiers du MagIT

Justifier la sécurité informatique - Gérer les risques et garantir la sécurité de votre réseau


L'objectif d'un programme de sécurité est de choisir et de déployer des contre-mesures performantes pour atténuer les vulnérabilités qui risquent très probablement de causer…

Security Connected : Optimisez votre entreprise - Les dix grands thèmes de la sécurité que doit maîtriser tout dirigeant d'entreprise


Les entreprises sont en perpétuelle évolution. Selon une étude récente de Gartner, le rôle des directeurs informatiques évolue lui aussi : jusque-là gestionnaires des ressou…
livres blancs avec LesSourcesIT.fr
Recevez les newsletters du MagIT
L'essentiel IT : L'actu IT au quotidien
événements

Etat du monde IT 2011

1 2 3 4 5   
Click Here