Les administrateurs de sauvegarde ont la responsabilité de protéger les données critiques de l’entreprise, mais aussi celle de gérer des coûts de stockage et de réseau. La redondance est un élément majeur de la sauvegarde des données, mais une redondance excessive peut augmenter les coûts de stockage et compliquer la gestion des données. C’est là qu’intervient la déduplication des sauvegardes.

La déduplication fonctionne en générant un hachage des données analysées. Les résultats du hachage sont ensuite comparés à d’autres résultats afin de déterminer les doublons. Toutes les copies des informations dupliquées, sauf une, sont supprimées et remplacées par des pointeurs vers la source de données unique et définitive.

Avec la déduplication des sauvegardes, les données dupliquées dans les sauvegardes sont remplacées par des pointeurs vers le fichier source. Il en résulte un gain d’espace assez surprenant. L’espace gagné varie en fonction de la technique de déduplication et des données d’origine. L’espace économisé dépend également fortement du type d’informations générées par les utilisateurs.

Cet article examine la déduplication des données et la manière dont elle permet aux administrateurs de sauvegarde d’exceller dans leurs fonctions. Il aborde différents types de déduplication, leurs avantages, leurs inconvénients et des techniques spécifiques pour vous aider à déterminer comment la déduplication s’intègre dans votre structure de sauvegarde des données.

Les types de déduplication des données Plusieurs options de déduplication sont disponibles, permettant aux administrateurs de sauvegarde de choisir leur propre aventure en ce qui concerne la manière dont le processus est effectué. Lorsqu’ils décident d’une stratégie de déduplication des sauvegardes, les administrateurs peuvent déterminer comment les données dupliquées sont analysées, quand elles sont éliminées et à quel moment du processus de sauvegarde la déduplication a lieu. Déduplication au niveau des fichiers ou au niveau des blocs. Les techniques de déduplication comprennent deux niveaux d’analyse des informations, chacun offrant ses propres avantages : au niveau des fichiers et au niveau des blocs. La déduplication au niveau des fichiers évalue des fichiers complets pour rechercher des informations présentes deux fois. La déduplication au niveau des blocs divise les données en blocs, puis vérifie chaque bloc pour rechercher des informations en double par rapport aux autres blocs. Dans les deux cas, des pointeurs vers une source unique et définitive remplacent ces informations. Déduplication en temps réel ou en post-traitement. La déduplication peut s’effectuer au fil de l’eau, en temps réel, ou après l’enregistrement du fichier par l’utilisateur. La déduplication après l’enregistrement du fichier par l’utilisateur est appelée post-traitement. La déduplication en temps réel peut nécessiter davantage de ressources que la déduplication post-traitement, ce qui ralentit le processus de sauvegarde. Cependant, la déduplication post-traitement nécessite l’utilisation d’un espace de stockage temporaire, contrairement à la déduplication en temps réel. Tenez compte des besoins de votre entreprise en matière de stockage et de traitement afin de déterminer le moment le plus opportun pour effectuer la déduplication. La déduplication post-traitement nécessite plus d'espace de stockage que la déduplication en temps réel. Déduplication basée sur la source ou sur la cible. Les administrateurs de stockage et de sauvegarde peuvent également décider du moment où la déduplication doit avoir lieu par rapport au processus de sauvegarde. Les options sont la déduplication basée sur la source ou sur la cible. La déduplication basée sur la source traite les informations avant le début de la procédure de sauvegarde, ce qui réduit les besoins en bande passante et en stockage. Elle présente également l’avantage de réduire les besoins généraux en stockage pour les données. La déduplication basée sur la cible traite les informations au niveau de la cible de sauvegarde. Il s’agit d’une approche plus spécialisée et plus gourmande en ressources, qui convient aux ensembles de données volumineux.

Les avantages de la déduplication pour les sauvegardes De nombreux administrateurs de stockage utilisent déjà la déduplication des données, de sorte que les administrateurs de sauvegarde peuvent bénéficier de cette technologie sans s’en rendre compte. Cependant, les avantages spécifiques de la déduplication des données pour les administrateurs de sauvegarde sont les suivants : Efficacité des tâches de sauvegarde.

Optimisation de l’espace de stockage.

Optimisation de la bande passante réseau.

Efficacité accrue de la gestion des données. La réduction des coûts qui en résulte permet aux entreprises de consacrer des ressources financières cruciales à d’autres domaines. La déduplication peut également aider les administrateurs de sauvegarde à justifier la conservation des données plus longtemps tout en réduisant l’empreinte de stockage sur les supports physiques.

Les inconvénients de la déduplication des données Aucune technologie n’est parfaite, et la déduplication des données ne fait pas exception. Vous devez anticiper certains problèmes spécifiques si vous implémentez la déduplication dans votre environnement. Les inconvénients potentiels sont les suivants : Ralentissement des performances du système, en particulier au niveau du processeur. La déduplication est très gourmande en ressources processeur.

Risques de perte de données dus à des collisions de hachage ou à d’autres erreurs.

Fragmentation accrue du stockage résultant de la manière dont les blocs sont traités et écrits sur le disque à des moments légèrement différents, et sont répartis sur plusieurs périphériques de stockage.

Risques de dépendance des blocs associés à la corruption des données. Si un bloc source est corrompu, cela peut avoir des répercussions importantes sur de nombreux fichiers.

Niveaux d’efficacité variables en fonction du type et de la structure des données. Le ralentissement des performances du système est particulièrement préoccupant. Si la récupération rapide des données est essentielle, la déduplication n’est peut-être pas le meilleur choix.