Cette question de la fiabilité de la technologie est un point sur lequel EMC insistait tout particulièrement lors d’un récent séminaire sur la déduplication à l’Hôtel de Crillon à Paris. Il est vrai que le constructeur a commencé à s’intéresser très tôt à la question de la déduplication de données notamment avec son rachat d’Avamar en 2006. Selon le constructeur, la technologie de déduplication maison a fait ses preuves avec près de 8 ans d’existence dans le cas d’Avamar. Et plusieurs clients de confirmer la chose en rappelant que par rapport à leurs systèmes de sauvegarde sur bande antérieurs, le couple déduplication/disque a en fait permis d’augmenter le taux de réussite des sauvegardes pour s’approcher de 100% et a aussi permis de garantir le succès des restaurations des données, ce qui était loin d’être le cas jusqu’alors. Et l’un des participants de rappeler qu’avant l’usage de la déduplication couplée à une baie de disque, il lui avait été nécessaire, dans un cas bien particulier, de retrouver le lecteur avec lequel avait été écrit une bande pour finalement parvenir à la relire, tous les autres lecteurs ayant échoué...
| Quelle réduction de données correspond à quel coefficient de déduplication |
|
| Coef. | Taux de réduction |
| 2:1 | 50% |
| 3:1 | 66% |
| 5:1 | 80% |
| 10:1 | 90% |
| 20:1 | 95% |
| 100:1 | 99% |
| 200:1 | 99,5% |
| 500:1 | 99,8% |
| 1000:1 | 99,9% |
| Cliquez pour dérouler | |
En fait, à moins d’une panne catastrophique sur un système de déduplication (genre inondation ou incendie) et dans le cas absurde où il n’existe aucune version répliquée du système, les experts et analystes s'accorde à juger très improbable la perte de données avec la déduplication. Certes il y a toujours l’éventuelle possibilité mathématique qu’un calcul de hash sur deux segments d’information différents produise le même résultat (dans ce cas, cela voudrait dire que deux données différentes seraient considérées comme identiques par le système). Mais la probabilité d’un tel événement est à peu près aussi élevée que celle de voir débarquer un alien en surf sur la plage d’Hossegor. De plus il existe des moyens de ce protéger d’un tel problème, notamment par vérification post calcul. En fait, la vraie question n’est en fait pas dans la fiabilité des l’algorithmes de déduplication mais, pour les plus paranoïaques, dans l’appliance qui l’exécute. Il faut ainsi évaluer avec soin les dispositifs de redondance mécanique des appliances de déduplication (comme les mécanismes RAID ou de distribution des données sur des disques, la présence ou non de disques de spare, la redondance des contrôleurs et alimentations...), le support du clustering, mais aussi les fonctions de réplication de données entre appliances...
S'assurer de la pérennité de la technologie
Une autre question est celle de la pérennité des acteurs. Ainsi dans un scénario où l’on déduplique des données sur disque avant finalement de les externaliser sur des cartouches, il faut s’assurer que l’on disposera bien d’une appliance de déduplicaiton fonctionnelle lorsqu’il s’agira de «réhydrater les données» afin de les relire. Et pour des données à contraintes de rétentions moyenne, de type 5 à 10 ans, cela parait tout de suite moins évident que pour des données de sauvegarde à cycle de rétention court (1 semaine à un an). Il est donc prudent de requérir de son fournisseur un engagement dans le temps ou de prévoir lors de la mise en oeuvre de la technologie les mécanismes de réversibilité qui permettront de relire les données le moment venu. Les professionnels de la sauvegarde sont de toute façon habitués à traiter de ce genre de contingences, nombre d'entre eux ayant déjà fait face à l'extinction de plusieurs logiciels de sauvegarde...
Demain dans la seconde partie découvrez les bénéfices réels de la déduplication, ainsi qu'un inventaire des fournisseurs et de l'offre dans le secteur.















