freshidea - stock.adobe.com

Tout ce qu'il faut savoir sur la création d'instantanés (snapshots)

Si les sauvegardes sont essentielles dans une stratégie élémentaire de protection des données, les instantanés de stockage et la réplication sont également indispensables, explique l'analyste américain d'ESG, Jason Buffington.

On vous a sans doute maintes fois répété que les instantanés ne sont pas des sauvegardes. Pourtant, même si cette affirmation est vraie, les instantanés jouent un rôle de plus en plus important dans la protection des données. Selon les données recueillies par Enterprise Strategy Group, neuf entreprises sur dix utilisent de nos jours des technologies de protection axées sur le stockage (création d'instantanés ou réplication) en complément des sauvegardes dans les environnements fortement virtualisés.

Certes, les sauvegardes restent la clé de voûte de la stratégie de protection des données des entreprises, mais les instantanés, ou snapshots, constituent souvent une approche complémentaire visant à renforcer la fiabilité de la protection et la rapidité de récupération d'une infrastructure informatique. En outre, les instantanés forment (avec la réplication) la base d'une protection des données moderne.

Fonctionnement des instantanés

À quelques variations près, les instantanés sont, pour l'essentiel, des collections de blocs de données qui représentent l'état d'un système de fichiers ou d'un volume à un moment donné dans le temps. Quelle que soit l'application, le niveau de virtualisation ou toute autre couche d'abstraction, presque toutes les solutions de stockage peuvent se résumer à un système dont chaque fichier et dossier est en fait une collection de fragments de données, stockés sous forme de blocs sur les disques ou SSD du système de stockage lui-même. Et il peut s'agir de blocs physiques dans une baie de stockage ou de blocs virtualisés dans un système de stockage programmable ou une plateforme d'appliance virtuelle. L'accès aux fichiers, dossiers ou données, s’effectue en passant via une table d’allocation, ou table de métadonnées, qui identifie les blocs eux-mêmes et réside immédiatement au-dessous du système de fichiers choisi.

Pour simplifier, on peut partir du principe que les données d'un fichier de 75 Ko sont réparties sur trois blocs de disque de 32 Ko. Toutes les méthodes d'accès de la couche supérieure (comprenant les informations sur les fichiers, les attributs et métadonnées, ainsi que la pertinence des applications) sont contenues dans un système de fichiers piloté par un système d'exploitation qui présente le fichier sous forme de données structurées ou non structurées. Le système de fichiers lui-même ne contient qu'une entrée désignant le « fichier » et des pointeurs séquentiels vers les trois blocs de disque, qui sont répartis de façon aléatoire sur l'ensemble du support de stockage réel. Un instantané peut ainsi être considéré comme le contenu « gelé » de ces trois blocs, accompagné des métadonnées et des pointeurs.

Supposons que le milieu du fichier soit ensuite modifié. Dans le système de fichiers, les premier et troisième blocs restent identiques, mais le deuxième bloc contient maintenant de nouvelles données. Le processus de création d'instantanés conserve des copies des blocs modifiées, afin qu'il soit possible de « rétablir » le fichier à un stade antérieur, simplement en réassemblant les trois blocs de données initiaux. En réalité, les instantanés interviennent presque toujours au niveau d'un volume, pas à celui d'un fichier comme dans l'exemple ci-dessus. Ce raisonnement est cependant applicable dans les deux cas. Pour mieux le comprendre, reportez-vous au graphique ci-contre.

Importance des instantanés

Selon une étude d'ESG, 67 % des serveurs affichent une tolérance aux pannes de moins de deux heures, comme le montre le graphique ci-dessous.

Si les systèmes de sauvegarde peuvent souvent gérer des reprises de deux heures ou plus, seul un serveur sur sept tolère les fenêtres d'interruption de service de six heures ou plus imposées par les mécanismes de sauvegarde traditionnels. Et comme les sauvegardes convertissent les données en un format plus facile à compresser et à stocker sur des matériels ou services différents de ceux où se trouvent les données d'origine, les restaurations, même les plus rapides, se heurtent à des limites pratiques. À l'opposé, le retour à un instantané précédent s'effectue en quelques minutes, voire moins, car les blocs résident dans la même baie que les données primaires. Néanmoins, si les rétablissements à partir d'instantanés semblent nettement préférables aux récupérations à partir de sauvegardes, ils présentent quelques inconvénients notables :

  • Vulnérabilité locale. Alors que les sauvegardes sont, par définition, des copies conservées en lieu sûr, les instantanés résident dans le même stockage que les données de production. En conséquence, si la baie de production subit des dommages, les instantanés ne seront plus disponibles (sauf si l’on a fait le choix de répliquer le contenue de la baie sur une seconde baie).
  • Consommation de stockage. Dans le même ordre d'idée, si les sauvegardes utilisent souvent un type de stockage différent pour leurs référentiels, les instantanés consomment inévitablement une capacité précieuse, au sein même des systèmes de stockage hautes performances de l'environnement de production.
  • Fréquence de protection. En raison de la consommation de stockage induite par l’usage des instantanés, la plupart des entreprises ne gardent ces données que quelques jours ou semaines, alors que la durée de conservation des sauvegardes se compte en mois ou années. Cela dit, vous pouvez prendre souvent des instantanés au cours de la journée (à des intervalles de quelques heures, voire toutes les 15 minutes), tandis que les opérations de sauvegarde ont lieu bien moins fréquemment, généralement la nuit.

Compte tenu de ces inconvénients non négligeables, les entreprises devraient réserver les instantanés à l'usage auquel ils sont le plus aptes, c'est-à-dire la récupération quasi-immédiate de données relativement récentes, tout en conservant les sauvegardes (même depuis le disque) comme deuxième option pour les reprises. Elles devraient également combiner instantanés et sauvegardes afin de garantir à plus longue échéance la pérennité des données en dehors de la baie.

Comparaison entre différents mécanismes de création d'instantanés

Pour différencier les méthodes de création d'instantanés, il est utile de comparer leurs capacités de copie en cas d'écriture (copy-on-write, CoW) et de redirection en cas d'écriture (redirect-on-write, RoW), caractéristiques qui décrivent essentiellement le comportement des blocs de disque lors de l'écriture de nouvelles données.

Reprenons l'exemple précédent :

  • Un fichier exigeant trois blocs de disque est écrit dans les blocs A, B et C.
  • Un instantané est appelé, probablement en raison d'une règle définie dans l'interface utilisateur du système de stockage ou dans une application de sauvegarde intégrée à la baie de stockage.
  • Le fichier subit une mise à jour nécessitant de remplacer des informations au milieu du fichier logique.

Si le système de stockage utilise la méthode copy-on-write, les opérations suivantes ont lieu :

  • Le contenu du bloc de disque B est copié à un autre emplacement du volume : le nouveau bloc « D ».
  • Les données du fichier mis à jour sont écrites dans le bloc B existant, écrasant ainsi les données initiales qui ont été copiées ailleurs.
  • Les nouvelles données étant écrites dans le bloc B, les trois blocs sont accessibles séquentiellement (ABC).

Si, à l'inverse, le système de stockage utilise la méthode redirect-on-write, voici ce qui se passe :

  • Les nouvelles données sont immédiatement écrites dans le nouveau bloc D.
  • Les pointeurs du système de fichiers indiquent maintenant que le fichier se compose des blocs « ADC », le bloc B d'origine étant conservé tel quel pour l'instantané.

Les modifications étant redirigées vers un nouveau bloc, aucune opération d'E/S supplémentaire n'est nécessaire dans le système de stockage pendant l'utilisation en production.

Par le passé, des E/S supplémentaires entraînaient une importante fragmentation, forçant certains systèmes de stockage à effectuer des opérations de récupération d'espace ou de réorganisation, surtout quand les systèmes de fichiers résidaient sur des baies uniques (par exemple, des ordinateurs personnels plutôt que des baies multibroches). Dans les deux exemples des méthodes CoW et RoW, lorsque la fenêtre de rétention de l'instantané arrive à expiration (par exemple, au bout de 72 heures, si au moins une sauvegarde a eu lieu), le système de disque récupère les blocs (D dans CoW, B dans RoW) comme espace libre et les pointeurs de l'instantané disparaissent.

Tirer le meilleur parti des instantanés

La création d'instantanés apporte deux fonctionnalités courantes : les clones et les instantanés transportables.

  • Le clonage, proposé sous diverses appellations selon les marques, renvoie généralement à l'utilisation d'instantanés à des fins autres que la récupération de données. En effet, de nombreuses entreprises souhaitent disposer de copies de leurs données pour le développement d'applications, le test de correctifs, la génération de rapports, les solutions analytiques, etc. Mais elles n'ont pas les moyens de s'offrir tout le stockage incrémentiel nécessaire pour héberger plusieurs copies, et ne veulent pas non plus subir la contrainte des E/S requises pour transférer toutes ces données depuis les systèmes de production. À la place, puisque les instantanés constituent littéralement des pointeurs vers des blocs, il est souvent possible de présenter ces pointeurs comme un second système de fichiers (c'est-à-dire, un clone) sans que cela exige une capacité de stockage supplémentaire. Tandis que les utilisateurs continuent à accéder aux données actives dans l'environnement de production, les analystes et autres bénéficiaires peuvent accéder au clone pour leur propre usage, à condition que la baie de stockage soit capable d'assurer suffisamment d'IOPS pour ne pas perturber l'environnement de production. Les nouvelles données sont susceptibles de consommer une petite quantité de stockage incrémentiel, mais c'est généralement temporaire et bien moins compliqué que de réaliser une nouvelle copie intégrale de l'ensemble de données.
  • La réplication de blocs, bien que ne faisant techniquement pas partie de la création d'instantanés, est souvent mise en avant par les fournisseurs comme plus efficace que les techniques de réplication en mode fichier proposées par des fonctions de plus haut niveau. Ce sont souvent les mêmes technologies sous-jacentes dans le produit de stockage qui gèrent la fonctionnalité en mode bloc, et qui sont soit combinées sous forme d'instantanés, soit transmises pour réplication.
  • Les instantanés transportables utilisent la réplication en mode bloc de certaines baies, mais répliquent également les métadonnées et pointeurs nécessaires pour reconstituer les mêmes instantanés à partir de la seconde baie. Une autre solution consiste à configurer des instantanés sur la baie principale toutes les heures, mais à n'y faire appel que toutes les quatre heures sur la baie secondaire hors site, afin de prolonger leur rétention avant de devoir recourir à des sauvegardes pour restauration.

Toutes les méthodes décrites ci-dessus (CoW et RoW, clones, réplication, etc.) dépendent du fonctionnement de chaque baie, mais, comme mentionné précédemment, les instantanés sont souvent combinés à des mécanismes de sauvegarde traditionnels, dans le but de disposer d'une gamme plus souple et plus complète de scénarios de reprise. Auparavant, les administrateurs du stockage de nombreuses entreprises géraient exclusivement les instantanés à l'aide des outils fournis avec chaque baie et donc distincts des interfaces utilisateur de l'administrateur de la sauvegarde. Aujourd'hui, les principaux logiciels de sauvegarde du marché garantissent généralement la facilité de gestion des produits de stockage standard dotés de fonctionnalités de création d'instantanés. Si la facilité de gestion varie considérablement selon les baies, tout comme l'intégration et les capacités d'extension des fonctions de gestion d'instantanés, les configurations les plus répandues offrent les caractéristiques suivantes :

  • Une interface utilisateur de gestion unique (la console de sauvegarde), qui permet de configurer la planification des instantanés à l'aide de règles semblables à celles des sauvegardes. Il en résulte un guichet unique pour tous les points de restauration quotidiens, hebdomadaires et mensuels (à partir de sauvegardes) et horaires (à partir d'instantanés).
  • Un catalogue unique, dans lequel les itérations des instantanés sur le stockage primaire sont considérées simplement comme une autre source de restauration, en plus du stockage sur disque, sur bande ou en Cloud utilisé en mode natif par le logiciel de sauvegarde. Cela dit, l'utilité du catalogue présente une grande disparité selon les fournisseurs : certaines interfaces de sauvegarde (associées aux baies de stockage idoines) peuvent afficher des index de tous les fichiers et de leurs différentes versions dans chaque instantané. En revanche, d'autres combinaisons n'offrent aucune visibilité sur un instantané tant qu'il n'a pas été monté manuellement par l'administrateur de la sauvegarde.

Les restaurations (à partir de sauvegardes) sont rarement à la hauteur des niveaux de service actuels dans les divisions opérationnelles, en particulier pour les plateformes fondamentales telles que les bases de données ou les hôtes de virtualisation. Cependant, des aménagements techniques complémentaires doivent être apportés à ces applications transactionnelles : le fournisseur d'instantanés de stockage fournit des extensions d'intégration au niveau de la base de données ou de l'hyperviseur, de sorte que l'instantané dispose de données les plus viables possible. Ainsi, de nombreuses applications de sauvegarde pourront récupérer certains éléments à partir d'un instantané, comme elles le font à partir de leurs propres supports de stockage, mais bien plus rapidement, ce qui est précisément l'intérêt de départ pour moderniser sa stratégie de protection des données.

L'auteur :
Jason Buffington (@JBuff) est analyste en chef chargé de la protection, de la préservation et de la disponibilité des données chez Enterprise Strategy Group (ESG).

 

Pour approfondir sur Backup

Close