Déduplication de données : faites faire une cure d'amaigrissement à votre stockage (2ème partie) 

Le 19 juillet 2010 (13:24) - par La rédaction

Imprimer Envoyer par e-mail

Rubriques : SAN et NAS - Backup et protection de données - Stockage Tags : hp - ibm - emc - oracle - sauvegarde - deduplication - nec - netapp - Data Domain - Quantum - backup - Nexenta - Falconstor

La déduplication de données est actuellement l'une des technologies les plus prometteuses et son adoption s'accélère dans les entreprises. D'ici à 2015, les trois quarts des entreprises devraient ainsi y avoir recours pour la sauvegarde de leurs données, quand elle ne l'utiliseront tout simplement pas pour leurs données primaires. Enquête sur une technologie en vogue qui suscite encore beaucoup de questions.

Microsoft : Microsoft propose des fonctions basiques de déduplication dans son système d’exploitation orienté stockage, Windows Storage Server 2008. Cet OS incorpore en effet un système de «Single Instance Storage» qui assure qu’un même fichier n’est pas stocké deux fois sur un même serveur de stockage. Cette fonction est par exemple utilisée par HP pour ses systèmes de stockage d’entrée de gamme Windows de la série StorageWorks X.

NEC  : Même si la solution n’est pas (encore ?) disponible en France, NEC propose aux Etats-Unis une solution de déduplication de données intégrée à sa solution de stockage en grille HydraStor. HydraStor, dont les prix débutent à environ 40 000 $ pour 4 To de capacité, s’appuie sur un algorithme de déduplication en ligne baptisé DataRedux, qui vient renforcer l’arsenal technologique des baies de stockage en cluster NEC. Selon NEC, sa solution d’entrée de gamme HydraStor HS-3 est une concurrente directe des systèmes EMC Data Domain DD630 tandis que la solution en grille HS-8 est une alternative au haut de gamme EMC. 

NetApp : NetApp a été le premier constructeur a proposer l’usage de la déduplication pour les données primaires. Ce mécanisme de déduplication s’appuie sur une fonction du système de fichiers WAFL qui calcule une somme de contrôle CRC pour chaque bloc de données qu'il stocke. Dans la pratique, la technologie de déduplication de NetApp est un processus optionnel qui fonctionne pendant les périodes de faible activité de la baie et examine toutes les sommes de contrôle; si les deux sommes de contrôle correspondent, l'un des blocs est remplacé par un pointeur WAFL. Le résultat est une nette réduction de l’espace utilisé sans impact significatif sur les performances. Le système de déduplication NetApp a été mis en oeuvre par de nombreux utilisateurs sur des types de données multiples, y compris les répertoires, bases de données et des images virtuelles, et la plupart ont rapporté des résultats positifs en matière de réduction de données et de  performance. Il est à noter que la déduplication est aussi mise en oeuvre par NetApp pour tous ses systèmes d'archivage ("Vault")

Nexenta Systems : Nexenta utilise le système de fichiers Solaris ZFS développé par Sun dans son système d’exploitation orienté stockage NexentaStor, dérivé d’OpenSolaris. NexentaStor incorpore toutefois de multiples améliorations telles que des fonctions de CDP, de réplication synchrone et, depuis la version 3.0, des fonctions de déduplication inline.

Quantum : Quantum est l’un des pionniers de la déduplication. La firme a hérité sa technologie de déduplication Blocklets lors du rachat d’ADIC en août 2006. Ce même ADIC avait lui même préalablement avalé Rocksoft, l’inventeur de la technologie, en mars 2006. Quantum s’est rapidement employé à intégrer la technologie Blocklets dans ses librairies de bandes virtuelles et a commencé à livrer ses premiers systèmes en décembre 2006 (les VTL DXi3500 et DXi5500). Depuis, la déduplication est devenue un élément standard des équipements de sauvegarde de la marque.

Récemment, Quantum a démocratisé l’usage de la technologie en lançant les gamme DXi4500 et DXi2500, deux familles d’appliances de déduplication à des tarifs très abordables et qui sont proposées avec des capacités de stockage à partir de 2 To. Ces équipements incluent en standard deux puces quadri-coeurs Intel Nehalem,  ce qui leur permet d’offrir des performances étonnantes pour leur niveau de prix.

Il est à noter que Quantum a été pendant plusieurs années le partenaire de déduplication d’EMC pour ses baies VTL mais que l’accord a connu une fin difficile avec le rachat de Data Domain par le numéro un mondial du stockage.

Notons enfin que Quantum a étendu l’usage de la déduplication au stockage primaire en intégrant sa technologie dans son système de fichier SAN StorNext 4.0. L’objectif est comme, dans le cas de NetApp, d’activer la déduplication pour les usages nearline ou pour les applications ne nécessitant pas les performances optimales. 

Sepaton : Sepaton a fait son entrée sur le marché de la déduplication avec sa librairie de bande virtuelle départementale DS2. Le constructeur a développé sa propre technologie de déduplication, baptisée DeltaStor (actuellement en version 5.3). Cette dernière est une technologie de déduplication en mode post-process qui s’appuie sur un système d’analyse différentielle des données. Selon Sepaton, il ne s’agit pas d’une technologie à base de hash. La technologie DeltaStore a l’avantage de fournir un système de déduplication global (tous les noeuds partagent un catalogue de déduplication unique, ce qui permet d’optimiser la déduplication à travers l’ensemble des noeuds). Elle optimise également les algorithmes utilisés en fonction de la nature des données ingérées. La technologie est utilisée dans les baies VTL Sepaton S2100-ES2, qui s’appuient sur des baies Hitachi AMS 2100 OEM mais aussi par plusieurs OEM dont HP pour ses librairies VLS.

Lire aussi sur LeMagIT :

Déduplication : la guerre est ouverte (Dans le cadre du dossier stockage d'octobre 2009)

Les priorités pour le stockage en 2010 : sauvegarde, accroissement des capacités et reprise après désastre

livres blancs avec LesSourcesIT.fr

Guide en 10 étapes pour l’achat d’une solution CRM adaptée

Le processus d'acquisition d'une solution CRM est différent de la procédure classique suivie pour les achats informati…


Démystifier les mythes sur le 10Gigabit Ethernet

Alors que le 10Gigabit Ethernet (GbE) est largement disponible depuis plusieurs, la technologie et encore nouvelle pour …

vues 3094 lectures commentaire 5 commentaire(s) recommandation notez cet article
4

Réagissez à cet article

Votre Pseudo

Commentaire

Pertinence du commentaire : 3
Par LOL
 Le 19/07/2010 à 18:23
Cela fait 4 ans que je bosse sur la deduplication. Donc, bien avant que cela devienne a la mode et fasse la une des magazines.

Alors quand je vois des taux de reduction de 90 à 95%, je me marre. Il suffit de reflechir 2 minutes : A partir de 100TB de donnees brutes, j'obtiens combien de données dedupliquees ?
Ce simple calcul et quelques secondes passees a reflechir sur le resultat montre que le marketing est un bien mauvais menteur, et que tout le monde le gobe sans faire travailler un seul neuronne.

La duplication des fichiers est importante dans le serveurs de fichiers qui hebergent les données non structurés des utilisateurs (et encore, les donnees importantes sont un minimum centralises, ne serait ce que pour gerer les versions, meme artisanalement), et permet ici de gagner quelques pourcents, voir quelques dizaines de pourcents pour les repertoires "home" des utilisateurs. Mais quel est le volume de donnees de l'entreprise devolue a ce type de données ?

Bref, quand j'implemente des technologies de sauvegarde modernes et recentes chez mes clients, je n'evoque meme pas le gain due a la deduplication, tant il est incertain, aleatoire et toujours peu significatif.

La bataille se joue sur l'automatisation, la structuration, l'analyse des données, le cycle de vie et surtout sur leur archivage rapide, efficace et legale et non pas sur leur deduplication, sauf dans des cas tres precis que le marketing tend a generaliser a outrance.

Autre argument. Combien coutait 1TB de disk il y a 3 ans ? Combien coute t il aujourd'hui. Donc aujourd'hui (ce ne sera peut etre pas vrai demain), a quoi sert de depenser de l'argent (process, risques de production, complexite etc ...) pour dedupliquer ?

Bref, la deduplication est un outil, qui a un interet sur des lots tres precis, mais il ne sert pas a grand chose de la generaliser.
Et quand les donnees se trouvent sous des disks virtuels type VMWare par exemple ........ elle fait quoi la baie de stockage qui deduplique ?

LOL
Noter ce commentaire
Pertinence du commentaire : 3
Par La rédaction
 Le 19/07/2010 à 18:33
@LOL : le troisième paragraphe de votre commentaire laisse à penser que votre réflexion porte sur la déduplication au niveau des fichiers. Mais c'est oublier la déduplication au niveau bloc...
Accessoirement, la déduplication au niveau bloc permet précisément d'apporter une réponse à votre remarque sur les données stockées sur les fichiers disques de machines virtuelles. A tel point que VMware intègre de la déduplication au niveau bloc au sein de son outil Data Recovery. La FAQ correspondante est ici :
http://www.vmware.com/files/pdf/vmware-data-recovery-fq-en.pdf
Noter ce commentaire
Pertinence du commentaire : 3
Par LOL
 Le 19/07/2010 à 19:20
La deduplication au niveau block. Vaste sujet qui approche le domaine des mathematiques pures.
D'un point de vue mathematique, on peut tres bien considerer que l'ensemble des donnees de la terre se resument a un 1 et a un 0. Avec 2 bits, on reconstitue les millions de TB utilisées a ce jour. Ca c'est le discours marketing.
D'un point de vue pratique, le plus on deduplique au niveau block, le plus on a besoin de stocker les metadatas associees dans une base volumineuse. Cette base, il faut alors la sauvegarder a son tours !!!!! Ainsi que les blocks associes !!!!

Bref, pas simple, d'autant que le pre ou post processing est gourmand en temps de calcul, memoire etc .....

Donc, pas simple du tout ......

Bref, le deduplication au niveau block presente un interet, mais comme toujours sur des lots particuliers, et cela ne peut s'appliquer a l'ensemble des donnees d'une entreprise, d'ou des gains parfois derisoires.

Revenons en a VMWare. Data Recovery permet dette deduplication au niveau block. Sur des VMDKs "thick"s, pas de problemes, on elimine les trous grace a cette methode. CEci dit, il y a longtemps qu'Asigra et les autres savaient le faire, ce n'est pas nouveau, meme si c'est utile.
Quel est l'interet sur des VMDK "thin"s ? Bof, il n'ya plus beacoup de trous en queue de vmdk, et les trous que l'on pensait triomphalement avoir vaincus, finalement n'etaient pas des donnees, mais du gras bien mal placé.

Je reste persuade que ces techniques qui peuvent presenter un interet certain aujourd'hui, ne devraient pas exister si les developpeurs de FS et OS avaient apprehender ces problematiques des le debut. Peut on les blamer ? Qui pouvait imaginer qu'aujourd'hui on utilise autant de TB et des CPUS aussi puissantes ?

Les FS generalement utilisees, fragmentent, laissent des trous, ne se reorganisent pas de maniere native pour eliminer les trous et autres zones que j'appel les "terrains vagues". Ceci fait le bonheur des marketeux en deduplication block.

Ou la technologie est tres interessante, c'est au niveau du backup, et les techniques appeles "delta blocking" et "incrementale for ever". Ici le gain est tres significatif par rapport aux solutions classiques, parfois meme phenomenale.

On peut en reparler, mon fiston m'appel pour le repas :) :) :)

A bientot, et vos dossiers techniques sont tres biens, je n'en manque pas un seul, meme si quelquefois je releve des petites erreures sur les quelques sujets que je maitrise (mais bon, il n'y que ceux qui ne font rien qui n'ecriront jamais une coquille).
Vous etes je pense de tres tres bons vulgarisateurs de technologie. Continuez, je donne meme certains liens a des clients en mal d'explication claires et impartiales.

LOL
Noter ce commentaire
Pertinence du commentaire : 4
Par je_payerais_pas
 Le 20/07/2010 à 10:01
Et vous comptez faire payer pour un article pareil ?

Bon. Allez-y, ça me manquera pas de ne pas l'avoir en ligne.
Noter ce commentaire
Pertinence du commentaire : 2
Par DS45
 Le 22/07/2010 à 08:37
A n'en pas douter la deduplication c'est l'avenir. cependant j'ai encore un peu de mal avec l'emploi de cette technologie en tier 0 ou 1 dans la mesure ou les processus associes sont encore trop consommateurs et viennent parfois contrarier les backup de nuit (ormis avec un produit de type EMC Avamar ou Symantec Puredisk). On aurait pu aussi evoquer l'un des precurseurs Quantum avec ses produits DXI et StorNext, mais comme toujours je trouve au contraire aue cet article fait un bon balayage du marche.
Noter ce commentaire
Toute l'actualité
Aujourd'hui rss Sur le même
sujet
Du même
auteur
publicité
publicité
Les dossiers du MagIT

Justifier la sécurité informatique - Gérer les risques et garantir la sécurité de votre réseau


L'objectif d'un programme de sécurité est de choisir et de déployer des contre-mesures performantes pour atténuer les vulnérabilités qui risquent très probablement de causer…

Security Connected : Optimisez votre entreprise - Les dix grands thèmes de la sécurité que doit maîtriser tout dirigeant d'entreprise


Les entreprises sont en perpétuelle évolution. Selon une étude récente de Gartner, le rôle des directeurs informatiques évolue lui aussi : jusque-là gestionnaires des ressou…
livres blancs avec LesSourcesIT.fr
Recevez les newsletters du MagIT
L'essentiel IT : L'actu IT au quotidien
événements

Etat du monde IT 2011

1 2 3 4 5   
Click Here