Rattaché à la Direction générale de l’Administration et de la Fonction publique, à la Direction générale des Finances publiques et à la Direction du Budget, le CISIRH (Center Interministériel de Services Informatiques relatifs aux Ressources Humaines) a pour mission de proposer aux services de l’État des systèmes RH dits « convergents ». Parmi ceux-ci, on peut citer RenoiRH, basé sur HR Access Suite 9, Ingres ou encore le CTDSN.

Au total, ces systèmes hébergent les dossiers de 358 000 agents et ils génèrent la déclaration mensuelle DSN (Déclaration Sociale Nominative) de 2,3 millions de fonctionnaires. La production et le PRA de ces applications sont assurés dans les datacenters du MINEFI, interconnectés par le Réseau Interministériel de l’État (RIE). La sauvegarde de ces données hautement critiques est assurée par le logiciel de sauvegarde Tina, de l’éditeur français Atempo.

Des données hautement critiques à protéger absolument Créé en 2015, le CISIRH compte aujourd’hui 150 agents, dont une trentaine en charge de l’IT. Par la nature de ce service, ces agents gèrent des données extrêmement critiques pour le bon fonctionnement de l’État, d’où la mise en place, dès le départ, d’une solution de sauvegarde. Cette architecture repose sur Tina de l’éditeur Atempo. Les serveurs Tina, sous Linux, assurent la sauvegarde des données des serveurs de fichiers (filers), des machines virtuelles, et des bases de données Oracle Hexadata. Les données de production des filers Hitachi HNAS sont sauvegardées au travers du module NDMP de Tina. Un couple de VTL (Virtual Tape Librairies) Quantum DXi, réparti sur deux sites, permet la mise en œuvre d’une réplication externalisée pour accroître la résilience de l’ensemble. Les données froides sont pour leur part sauvegardées sur des librairies de bandes LTO7 robotisées de marque Quantum. Aujourd’hui, l’ensemble de ces données représente de l’ordre de 1 Po de données sauvegardées. L’architecture complète met en œuvre 3 VTL Quantum DXi 9000, disposant de 250 To d’espace dédupliqué. Un premier est exploité en production, un deuxième est dédié aux équipes projets et le troisième est mis en œuvre dans le cadre du PRA (trois robots Quantum I6 avec 6 lecteurs LTO7 pour la production et les projets et trois lecteurs LTO7 en PRA). En outre, deux serveurs de sauvegarde Dell sont en place sur chaque site. Les volumes de données sauvegardées n’ont cessé de croître d’année en année. Et cette infrastructure a récemment été sollicitée de manière intensive suite à un incident de production. Jérôme Marie, ingénieur stockage et sauvegarde à la CISIRH, raconte : « Nous avons eu un souci : au bout de huit jours, nous nous sommes rendu compte qu’une mise à jour logicielle avait malheureusement modifié un script de purge. Celui-ci effaçait beaucoup plus de fichiers qu’à l’ordinaire. » Pendant une grosse semaine, ce script a méticuleusement effacé des dizaines de milliers de fichiers. (En analysant les logs, l’équipe de production en a décompté pas moins de 145 000 !) Une particularité de cet effacement accidentel est qu’il était réparti sur toute une semaine et qu’il ne touchait pas tous les fichiers sur une période donnée, mais seulement certains d’entre eux. L'Architecture de sauvegarde du CISIRH présentée par Jérôme Marie, ingénieur stockage, lors des Universités d’été d’Hexatrust 2024.

37 heures de traitement pour restaurer 144 700 fichiers Pour restaurer ces fichiers, Jérôme Marie va mettre en œuvre la fonction de navigation temporelle du logiciel Tina. « Nous avons pu générer une liste de fichiers à restaurer en nous appuyant sur la fonction de profondeur de champ qui est l’une des fonctionnalités de la solution, afin de faire une navigation temporelle dans les données de Tina. Cela nous a permis de réaliser la restauration en une seule commande. » L’atout des sauvegardes réalisées par l’outil, c’est que seules les dernières versions de chaque fichier sont sauvegardées. L’équipe de production avait donc la certitude de ne remonter que la version la plus récente de chaque fichier. « Nous utilisons un jeu de cartouche dont la durée de rétention est de 2 mois. Comme nous avons pris conscience de l’incident au bout de 8 jours, nous avons pu utiliser la fonction de profondeur de champ du logiciel sur 8 jours », ajoute l’ingénieur. « Nous avons demandé au logiciel de fouiller les sauvegardes de ces huit derniers jours. Tina va chercher des objets et, pour chacun d’eux, des instances lui sont associées sur les cartouches. » Le logiciel a dû calculer les 144 700 occurrences en parcourant sa base de métadonnées et construire le mécanisme de lecture des différentes bandes étagées sur une semaine complète. Le processus de restauration lui-même a demandé 37 heures de traitement, mais la restauration a été complète et sans aucune erreur. Si Jérôme Marie était plutôt serein quant à la restauration d’autant de fichiers depuis les cartouches virtuelles, la longueur du traitement et les énormes volumes de mémoire nécessaires au mécanisme DAR (Direct Access Recovery) ont mis à l’épreuve la fiabilité du logiciel Tina. Jérôme Marie précise le fonctionnement de cette fonction disponible sur certains systèmes NDMP (Network Data Management Protocol) : « La fonction DAR permet un accès direct à l’emplacement du fichier sur le fichier-bande (partition logique de la bande), plutôt que d’imposer une lecture complète de celui-ci pour en extraire plus rapidement la donnée. Ce mécanisme impose de stocker en mémoire l’ensemble des données/métadonnées utiles pour construire le scénario de la restauration, à savoir la position de chaque fichier sur la bande, l’ordre des lectures des bandes, l’ordre de lecture pour chaque fichier sans retour arrière sur la bande. » Enfin, il faut effectuer le calcul des sauts de blocs entre chaque fichier. Tous ces éléments expliquent pourquoi il a fallu 37 heures pour mener à bien la restauration de ces 145 000 fichiers.