Déduplication de données : faites faire une cure d'amaigrissement à votre stockage (1ère partie)

La déduplication de données est actuellement l'une des technologies de stockage les plus prometteuses du fait de son aptitude à réduire considérablement le besoin de capacité de stockage des entreprises. D'ici à 2015, 3/4 des entreprises devraient ainsi y avoir recours pour la sauvegarde de leurs données, quand elle ne l'utiliseront tout simplement pas pour leurs données primaires. Enquête sur une technologie en vogue, mais qui suscite encore beaucoup de questions.

Réduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire le temps de sauvegarde des serveurs comme des postes clients... Ces bénéfices de la déduplication de données ne sont que les principaux avantages mis en avant par les utilisateurs de la technologie même si pour ceux qui ne se sont pas encore laissé tentés, il reste encore beaucoup de scepticisme sur les déclarations des fournisseurs. Il est vrai que dans la bataille qui s’est engagée entre les spécialistes du secteur, tels qu’EMC, IBM, Symantec, Commvault, HP, Falconstor ou Quantum, chaque acteur joue de la surenchère pour séduire le chaland.

Comment «réduire» le volume des données

Selon les fournisseurs, l'appellation déduplication recouvre plusieurs réalités. La version la plus basique de la technologie est maitrisée depuis des années, puisqu’il ne s’agit ni plus ni moins que de la compression, qui permet d’éliminer certaine redondances de données afin de réduire l’empreinte de stockage d’un fichier.

Au delà de cette implémentation «historique», on a vu apparaitre plus récemment deux autres formes de réduction de données, tout d’abord la déduplication au niveau fichier. Avec cette dernière, tout fichier détecté comme étant un double parfait d’un autre fichier est tout simplement supprimé et remplacé par un «lien». Cette technologie est notamment mise en oeuvre dans les messageries électroniques sous le nom de Single Instance Storage (un élément dupliqué à une ou plusieurs reprises n’est stocké qu’une fois).

Quelques questions à se poser avant de se lancer

Quels sont mes besoins en termes de performances d'ingestion et de capacité ?

Quels type de déduplication est le mieux adapté à mes besoins ?

Selon le type retenu, dois-je faire évoluer mes processus de backup ?

Y-a-t-il un risque de perte de données ?

Quels sont les gains de capacité réellement permis par la déduplication ?

Quelle pérennité de la technologie, notamment en cas d’utilisation à des fins d’archivage ?

 

Mais la version de la technologie de déduplication qui intéresse aujourd’hui le plus les entreprises est la déduplication au niveau du bloc (ou tout du moins au niveau d’un segment de fichiers). Comme avec le SIS, l’idée est de localiser des «doublons» mais cette fois-ci à l’échelle de petits segments de fichiers, dans le but de maximiser les chances de trouver des doublons.

Selon les constructeurs, l’analyse des blocs se fait sur la base de segments de données de taille fixe ou de taille variable. Dans ce dernier cas, le déplacement de la fenêtre d’analyse de l’algorithme de déduplication maximise les chances de trouver des doublons et donc de réduire la taille des données.

Pour identifier les données dupliquées, l’approche utilisée est très similaire celle mise en oeuvre pour le calcul de «hash» de données.

En fait, la plupart des technologies découpent les fichiers en segments et opèrent un calcul de «hash» sur ces segments grâce à un algorithme cryptographique. Ce calcul produit une valeur numérique réputée unique, qui est ensuite comparée à la valeur numérique des autres morceaux déjà analysés. En cas de redondance, le bloc est éliminé et un lien créé de tel sorte que lors de la restauration ou de la relecture, le système saura recréer le fichier original, à partir des blocs uniques et des blocs dédupliqués.

«Primum non nocere»

Même si les promesses de la déduplication sont séduisantes, un administrateur de stockage doit toujours faire sien ce précepte enseigné aux étudiants en médecine : primum non nocere, ou «d'abord, ne pas nuire." La règle n°1 à garder à l'esprit lors de l'introduction d'un changement dans votre système de stockage ou de sauvegarde de données est d’assurer que la pérennité des données ne sera pas compromise.

Si certains ont émis des doutes sur la fiabilité de la déduplication, le moins que l'on puisse dire est qu'il n'y a pas à ce jour d'exemple documenté de catastrophe de grande ampleur avec la technologie, alors que les histoires d'horreurs en matière de sauvegarde et de restauration traditionnelle depuis des systèmes sur bande sont légion - ne pas en tirer pour autant la conclusion que la bande est morte, elle conserve toute son utilité dans certains scénarios, pour peu qu'elle soit exploité correctement.

Déduplication à la source ou déduplication à la cible ?

On distingue aujourd’hui deux types de déduplications. Celle qui s’exécute à la source et celle qui s’exécute à la cible. La première s’opère sur le serveur à sauvegarder. Lors d’une opération de backup, l’agent installé sur le serveur déduplique les données au fil de l’eau et ne transmet au serveur de sauvegarde que des données déjà dédupliquées. L’avantage principal est que le flux de données sur le réseau s’en trouve considérablement réduit (de 95% pour un ratio de 10:1), ce qui rend la technologie particulièrement utile dans les environnements très consolidés (notamment dans les environnements virtualisés), dans le cas de serveurs en agence qui sauvegardent en central ou du backup de postes clients.

A l’inverse, dans le cas de la déduplication à la cible, le processus de sauvegarde reste très traditionnel. Le serveur à sauvegarder envoie ses données au serveur de sauvegarde, qui les transmet à l’appliance de déduplication, qui se charge de réduire au fil de l’eau. L’avantage principal de cette approche est que les machines à sauvegarder ne sont pas sollicitées au niveau processeur, toutes les opérations s’exécutant sur l’appliance. En revanche, les capacités de déduplication de l’appliance sont limitées à la puissance de traitement de ses processeurs. Il est à noter que la plupart des appliances de déduplication à la cible offrent à la fois un mode de stockage (ou de sauvegarde) en mode NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi qu’un mode VTL. Dans ce dernier, l’appliance apparait comme une librairie de bande virtuelle pour les logiciels de sauvegarde et s’insère donc de façon transparente dans des processus de sauvegarde existant, à ceci près que la capacité utilisable est considérablement accrue par l’usage de la déduplication.

Il est à noter que pour la déduplication à la cible, un débat oppose les tenants de la déduplication en ligne - «inline», qui s’opère au fil de l’arrivée des données - à ceux de la déduplication en mode post-processing, qui s’opère «en  batch» une fois la sauvegarde terminée. Le choix de l’une ou de l’autre des méthodes relève au final plus de la cour d’école que d’autre chose, les taux de déduplication et les performances étant au final assez similaires entre les meilleures solutions. Reste qu’avec l’avénement de processeurs toujours plus puissants, il y a fort à parier que nombre d’acteurs du post-processing évolueront progressivement vers le traitement en ligne...

Cette question de la fiabilité de la technologie est un point sur lequel EMC insistait tout particulièrement lors d’un récent séminaire sur la déduplication à l’Hôtel de Crillon à Paris. Il est vrai que le constructeur a commencé à s’intéresser très tôt à la question de la déduplication de données notamment avec son rachat d’Avamar en 2006.

Selon le constructeur, la technologie de déduplication maison a fait ses preuves avec près de 8 ans d’existence dans le cas d’Avamar. Et plusieurs clients de confirmer la chose en rappelant que par rapport à leurs systèmes de sauvegarde sur bande antérieurs, le couple déduplication/disque a en fait permis d’augmenter le taux de réussite des sauvegardes pour s’approcher de 100% et a aussi permis de garantir le succès des restaurations des données, ce qui était loin d’être le cas jusqu’alors. Et l’un des participants de rappeler qu’avant l’usage de la déduplication couplée à une baie de disque, il lui avait été nécessaire, dans un cas bien particulier, de retrouver le lecteur avec lequel avait été écrit une bande pour finalement parvenir à la relire, tous les autres lecteurs ayant échoué...

 

Quelle réduction de données correspond à quel coefficient de déduplication
 
Coef. Taux de réduction
2:1 50%
3:1 66%
5:1 80%
10:1 90%
20:1 95%
100:1 99%
200:1 99,5%
500:1 99,8%
1000:1 99,9%
 

 

En fait, à moins d’une panne catastrophique sur un système de déduplication (genre inondation ou incendie) et dans le cas absurde où il n’existe aucune version répliquée du système, les experts et analystes s'accorde à juger très improbable la perte de données avec la déduplication. Certes il y a toujours l’éventuelle possibilité mathématique qu’un calcul de hash sur deux segments d’information différents produise le même résultat (dans ce cas, cela voudrait dire que deux données différentes seraient considérées comme identiques par le système).

Mais la probabilité d’un tel événement est à peu près aussi élevée  que celle de voir débarquer un alien en surf sur la plage d’Hossegor. De plus il existe des moyens de ce protéger d’un tel problème, notamment par vérification post calcul. En fait, la vraie question n’est en fait pas dans la fiabilité des l’algorithmes de déduplication mais, pour les plus paranoïaques, dans l’appliance qui l’exécute. Il faut ainsi évaluer avec soin les dispositifs de redondance mécanique des appliances de déduplication (comme les mécanismes RAID ou de distribution des données sur des disques, la présence ou non de disques de spare, la redondance des contrôleurs et alimentations...), le support du clustering, mais aussi les fonctions de réplication de données entre appliances...

S'assurer de la pérennité de la technologie

Une autre question est celle de la pérennité des acteurs. Ainsi dans un scénario où l’on déduplique des données sur disque avant finalement de les externaliser sur des cartouches, il faut s’assurer que l’on disposera bien d’une appliance de déduplicaiton fonctionnelle lorsqu’il s’agira de «réhydrater les données» afin de les relire. Et pour des données à contraintes de rétentions moyenne, de type 5 à 10 ans, cela parait tout de suite moins évident que pour des données de sauvegarde à cycle de rétention court (1 semaine à un an).

Il est donc prudent de requérir de son fournisseur un engagement dans le temps ou de prévoir lors de la mise en oeuvre de la technologie les mécanismes de réversibilité qui permettront de relire les données le moment venu. Les professionnels de la sauvegarde sont de toute façon habitués à traiter de ce genre de contingences, nombre d'entre eux ayant déjà fait face à l'extinction de plusieurs logiciels de sauvegarde...

Demain dans la seconde partie découvrez les bénéfices réels de la déduplication, ainsi qu'un inventaire des fournisseurs et de l'offre dans le secteur. 

Pour approfondir sur Backup

Close