Déduplication de données : faites faire une cure d'amaigrissement à votre stockage (1ère partie) 

Le 12 juillet 2010 (17:29) - par La rédaction

Imprimer Envoyer par e-mail

Rubriques : SAN et NAS - Backup et protection de données - Stockage Tags : hp - ibm - emc - sauvegarde - deduplication - Data Domain - VTL - Quantum - backup - compression

La déduplication de données est actuellement l'une des technologies de stockage les plus prometteuses du fait de son aptitude à réduire considérablement le besoin de capacité de stockage des entreprises. D'ici à 2015, 3/4 des entreprises devraient ainsi y avoir recours pour la sauvegarde de leurs données, quand elle ne l'utiliseront tout simplement pas pour leurs données primaires. Enquête sur une technologie en vogue, mais qui suscite encore beaucoup de questions.

Réduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire le temps de sauvegarde des serveurs comme des postes clients... Ces bénéfices de la déduplication de données ne sont que les principaux avantages mis en avant par les utilisateurs de la technologie même si pour ceux qui ne se sont pas encore laissé tentés, il reste encore beaucoup de scepticisme sur les déclarations des fournisseurs. Il est vrai que dans la bataille qui s’est engagée entre les spécialistes du secteur, tels qu’EMC, IBM, Symantec, Commvault, HP, Falconstor ou Quantum, chaque acteur joue de la surenchère pour séduire le chaland.  

Comment «réduire» le volume des données
Selon les fournisseurs, l'appellation déduplication recouvre plusieurs réalités. La version la plus basique de la technologie est maitrisée depuis des années, puisqu’il ne s’agit ni plus ni moins que de la compression, qui permet d’éliminer certaine redondances de données afin de réduire l’empreinte de stockage d’un fichier. Au delà de cette implémentation «historique», on a vu apparaitre plus récemment deux autres formes de réduction de données, tout d’abord la déduplication au niveau fichier. Avec cette dernière, tout fichier détecté comme étant un double parfait d’un autre fichier est tout simplement supprimé et remplacé par un «lien». Cette technologie est notamment mise en oeuvre dans les messageries électroniques sous le nom de Single Instance Storage (un élément dupliqué à une ou plusieurs reprises n’est stocké qu’une fois).

Quelques questions à se poser avant de se lancer
Quels sont mes besoins en termes de performances d'ingestion et de capacité ?

Quels type de déduplication est le mieux adapté à mes besoins ?

Selon le type retenu, dois-je faire évoluer mes processus de backup ?

Y-a-t-il un risque de perte de données ?

Quels sont les gains de capacité réellement permis par la déduplication ?

Quelle pérennité de la technologie, notamment en cas d’utilisation à des fins d’archivage ?
Cliquez pour dérouler

Mais la version de la technologie de déduplication qui intéresse aujourd’hui le plus les entreprises est la déduplication au niveau du bloc (ou tout du moins au niveau d’un segment de fichiers). Comme avec le SIS, l’idée est de localiser des «doublons» mais cette fois-ci à l’échelle de petits segments de fichiers, dans le but de maximiser les chances de trouver des doublons. Selon les constructeurs, l’analyse des blocs se fait sur la base de segments de données de taille fixe ou de taille variable. Dans ce dernier cas, le déplacement de la fenêtre d’analyse de l’algorithme de déduplication maximise les chances de trouver des doublons et donc de réduire la taille des données.
Pour identifier les données dupliquées, l’approche utilisée est très similaire celle mise en oeuvre pour le calcul de «hash» de données. En fait, la plupart des technologies découpent les fichiers en segments et opèrent un calcul de «hash» sur ces segments grâce à un algorithme cryptographique. Ce calcul produit une valeur numérique réputée unique, qui est ensuite comparée à la valeur numérique des autres morceaux déjà analysés. En cas de redondance, le bloc est éliminé et un lien créé de tel sorte que lors de la restauration ou de la relecture, le système saura recréer le fichier original, à partir des blocs uniques et des blocs dédupliqués.

«Primum non nocere»
Même si les promesses de la déduplication sont séduisantes, un administrateur de stockage doit toujours faire sien ce précepte enseigné aux étudiants en médecine : primum non nocere, ou «d'abord, ne pas nuire." La règle n°1 à garder à l'esprit lors de l'introduction d'un changement dans votre système de stockage ou de sauvegarde de données est d’assurer que la pérennité des données ne sera pas compromise.

Si certains ont émis des doutes sur la fiabilité de la déduplication, le moins que l'on puisse dire est qu'il n'y a pas à ce jour d'exemple documenté de catastrophe de grande ampleur avec la technologie, alors que les histoires d'horreurs en matière de sauvegarde et de restauration traditionnelle depuis des systèmes sur bande sont légion - ne pas en tirer pour autant la conclusion que la bande est morte, elle conserve toute son utilité dans certains scénarios, pour peu qu'elle soit exploité correctement. (cliquer ici pour lire la suite)

Déduplication à la source ou déduplication à la cible ?

On distingue aujourd’hui deux types de déduplications. Celle qui s’exécute à la source et celle qui s’exécute à la cible. La première s’opère sur le serveur à sauvegarder. Lors d’une opération de backup, l’agent installé sur le serveur déduplique les données au fil de l’eau et ne transmet au serveur de sauvegarde que des données déjà dédupliquées. L’avantage principal est que le flux de données sur le réseau s’en trouve considérablement réduit (de 95% pour un ratio de 10:1), ce qui rend la technologie particulièrement utile dans les environnements très consolidés (notamment dans les environnements virtualisés), dans le cas de serveurs en agence qui sauvegardent en central ou du backup de postes clients.

A l’inverse, dans le cas de la déduplication à la cible, le processus de sauvegarde reste très traditionnel. Le serveur à sauvegarder envoie ses données au serveur de sauvegarde, qui les transmet à l’appliance de déduplication, qui se charge de réduire au fil de l’eau. L’avantage principal de cette approche est que les machines à sauvegarder ne sont pas sollicitées au niveau processeur, toutes les opérations s’exécutant sur l’appliance. En revanche, les capacités de déduplication de l’appliance sont limitées à la puissance de traitement de ses processeurs. Il est à noter que la plupart des appliances de déduplication à la cible offrent à la fois un mode de stockage (ou de sauvegarde) en mode NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi qu’un mode VTL. Dans ce dernier, l’appliance apparait comme une librairie de bande virtuelle pour les logiciels de sauvegarde et s’insère donc de façon transparente dans des processus de sauvegarde existant, à ceci près que la capacité utilisable est considérablement accrue par l’usage de la déduplication.

Il est à noter que pour la déduplication à la cible, un débat oppose les tenants de la déduplication en ligne - «inline», qui s’opère au fil de l’arrivée des données - à ceux de la déduplication en mode post-processing, qui s’opère «en  batch» une fois la sauvegarde terminée. Le choix de l’une ou de l’autre des méthodes relève au final plus de la cour d’école que d’autre chose, les taux de déduplication et les performances étant au final assez similaires entre les meilleures solutions. Reste qu’avec l’avénement de processeurs toujours plus puissants, il y a fort à parier que nombre d’acteurs du post-processing évolueront progressivement vers le traitement en ligne...

livres blancs avec LesSourcesIT.fr

Guide en 10 étapes pour l’achat d’une solution CRM adaptée

Le processus d'acquisition d'une solution CRM est différent de la procédure classique suivie pour les achats informati…


Démystifier les mythes sur le 10Gigabit Ethernet

Alors que le 10Gigabit Ethernet (GbE) est largement disponible depuis plusieurs, la technologie et encore nouvelle pour …

vues 1912 lectures commentaire 0 commentaire(s) recommandation notez cet article
3

Réagissez à cet article

Votre Pseudo

Commentaire

Toute l'actualité
Aujourd'hui rss Sur le même
sujet
Du même
auteur
publicité
publicité
Les dossiers du MagIT

Justifier la sécurité informatique - Gérer les risques et garantir la sécurité de votre réseau


L'objectif d'un programme de sécurité est de choisir et de déployer des contre-mesures performantes pour atténuer les vulnérabilités qui risquent très probablement de causer…

Security Connected : Optimisez votre entreprise - Les dix grands thèmes de la sécurité que doit maîtriser tout dirigeant d'entreprise


Les entreprises sont en perpétuelle évolution. Selon une étude récente de Gartner, le rôle des directeurs informatiques évolue lui aussi : jusque-là gestionnaires des ressou…
livres blancs avec LesSourcesIT.fr
Recevez les newsletters du MagIT
L'essentiel IT : L'actu IT au quotidien
événements

Etat du monde IT 2011

1 2 3 4 5   
Click Here