Déduplication de données : faites faire une cure d'amaigrissement à votre stockage (2ème partie) article payant

Le 19 juillet 2010 (13:24) - par La rédaction

Rubriques : SAN et NAS - Backup et protection de données - Stockage Tags : hp - ibm - emc - oracle - sauvegarde - deduplication - nec - netapp - Data Domain - Quantum - backup - Nexenta - Falconstor

La déduplication de données est actuellement l'une des technologies les plus prometteuses et son adoption s'accélère dans les entreprises. D'ici à 2015, les trois quarts des entreprises devraient ainsi y avoir recours pour la sauvegarde de leurs données, quand elle ne l'utiliseront tout simplement pas pour leurs données primaires. Enquête sur une technologie en vogue qui suscite encore beaucoup de questions.

(Cet article est la seconde partie d'un premier article publié le 12 juillet 2010 sur LeMagIT)

Dans tous les cas, la déduplication produit des résultats surprenants en matière de réduction des données. Si la plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) - qui ne sont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1 à 20:1. Ce qui signifie une réduction de 90 à 95% du volume des données. Dans la pratique cela veut dire qu’une appliance de déduplication avec 40 To de capacité disque utile pourra en fait sauvegarder 400 à 800 To de données.

Mais la déduplication présente d’autres bénéfices. A la source, par exemple, elle permet une réduction massive des fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces deux caractéristiques permettent d’envisager des scénarios de protection des agences distantes jusqu’alors impossibles, le tout en assurant une bien meilleure sécurité des données. Il est ainsi facile de comprendre que les chances de restaurer des données dans de bonnes conditions, avec un système de sauvegarde centralisé opéré par des professionnels, est bien plus élevé qu’avec un système distribué s’appuyant sur des lecteurs de bandes souvent incertains distribués en agences... Plus généralement le fait d’avoir des données déjà dédupliquées simplifie aussi les opérations de réplication entre des appliances de sauvegardes réparties sur plusieurs sites.

La déduplication du stockage primaire, futur eldorado ?

Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de sauvegarde. Chez EMC, Data domain et Avamar sont pour l’instant cantonnés à des appliances dédiées, conçues pour le backup ou l'archivage à court terme; il en va de même chez IBM avec les appliances ProtecTier ou chez HP, Sepaton et FalconStor.

NetApp se distingue toutefois de la masse, puisqu’il n’hésite pas à recommander l’usage de la déduplication sur le stockage primaire. Le constructeur n’a jamais clamé qu’il disposait de la meilleure technologie de déduplication du marché pour la sauvegarde, mais sa présence importante sur le marché NAS l’a amené très tôt à considérer l’usage de la déduplication sur des données primaires et sur des données «nearline». A tel point que le constructeur n’hésite plus à recommander l’usage de sa technologie de déduplication embarquée (en mode post-processing) sur le stockage primaire, dans certains scénarios comme le déploiement de postes de travail virtualisés. Il est fort probable que NetApp ne restera pas durablement le seul sur ce créneau (et qu'il devra aussi revoir sa technologie pour proposer un mode de traitement inline).

Déjà, la plupart des systèmes de stockage à base du système de fichiers ZFS (comme ceux de Nexenta ou de GreenBytes) sont capables d’appliquer la déduplication sur des données primaires. Et ce n’est sans doute qu’une question de temps avant qu’Oracle ne commence lui aussi à jouer de la technologie dans ses baies de stockage OpenStorage. Chez HP, l’urgence du moment est à l’intégration de la nouvelle technologie maison, StoreOnce, dans l’ensemble des baies de sauvegarde. Mais, déjà, le constructeur a indiqué que StoreOnce a vocation à être intégré dans l’ensemble de ses systèmes de stockage et donc, sans doute, dans les baies SAN LeftHand P4000 et dans les futures baies EVA de la série P6000. Chez EMC, on ne cache pas non plus qu’un des eldorado futurs est l’usage de la déduplication dans les systèmes de stockage primaires.

Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux processeurs multicoeur AMD et Intel qui motorisent les baies de stockage et pour tirer profit de façon optimale de la capacité des nouveaux disques SSD. Et dans bien des têtes, la déduplication des données primaires est l’une des fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de stockage...

Les acteurs de la déduplication

EMC : EMC a fait ses premiers pas dans la déduplication avec le rachat d’Avamar, l’un des pionniers de la déduplication à la source en 2006. Depuis, le constructeur a mis la main sur DataDomain dans une bataille épique avec NetApp. La firme est aujourd’hui le principal acteur du secteur avec des technologies qui sont considérées comme comptant parmi les meilleures du moment. Avamar est notamment considéré par les spécialistes comme la meilleure technologie de déduplication à la source. Alors qu’à ces débuts, la technologie était vendue sous la forme d’un logiciel (à installer sur un serveur approuvé), EMC la commercialise aujourd’hui sous la forme d’une appliance intégrée combinant le contrôleur Avamar (un serveur à base de puces Xeon) et une baie de disques.

DataDomain, de son côté est la technologies de déduplication à la cible la plus déployée du marché. Par rapport à certains concurrents comme les gateway Protectier d’IBM, la solution d’EMC manque encore d’un mode cluster failover entre deux noeuds DataDomain, qui permettrait d’assurer la continuité des opérations de sauvegarde même en cas de chute d’un noeud. Pour l’instant, la firme propose une solution de cluster de performance, qui améliore les taux de transferts, mais ne règle pas le problème de chute d’un noeud. Reste que cette carence doit être considérée à sa juste mesure : dans le cas (rare) de chute d’un noeud, les processus de sauvegarde en cours sur ce noeud devront être relancés (à aucun moment le catalogue ou les données déjà sauvegardées lors de job précédents ne sont mis en péril par la chute d’un contrôleur). Il est à noter que si les technologies de déduplication à la source et à la cible d’EMC sont aujourd’hui disjointes, elles pourraient ultimement converger, un point que le constructeur a laissé entendre (sans toutefois en faire la promesse ferme) lors du dernier EMC World. 

Falconstor : Notamment connu pour son offre logicielle VTL IPStor, Falconstor propose depuis déjà plusieurs années des fonctions de déduplication en mode post-processing dans sa solution VTL. Selon l’éditeur, la solution IPStor peut ingérer des données à un rythme pouvant atteindre 500 Mo/s par noeud avec une limite de 4 noeuds en cluster failover (n+1).

En parallèle de sa solution de déduplication VTL, l’éditeur a développé une solution de déduplication de données baptisée File-interface Deduplication System (FDS), qui permet de dédupliquer des données en mode post-processing sur des volumes NFS et CIFS (la solution est alors adaptée à des scénarios de sauvegarde sur disque). Selon FalconStor, FDS supporte l’API OST de Symantec (intégrée à NetBackup et à BackupExec) et serait capable de supporter des débits de l’ordre de 5.5 To/h sur un noeud équipé de deux liens 10 Gigabit Ethernet.

IPStor est notamment utilisé par Oracle pour ses librairies VTL. Hitachi Data Systems a aussi récemment noué un accord OEM avec FalconStor pour l’utilisation d’IPStor et de FDS en complément de ses systèmes de stockage AMS 2000. 

GreenBytes : nouveau venu sur le marché, GreenBytes a développé une série d’appliances supportant la déduplication inline pour le stockage primaire et la sauvegarde. Les appliances GB-X de GreenBytes s’appuient sur le système d’exploitation OpenSolaris et le système de fichiers de Sun. Leur algorithme de déduplication s’appuie sur le système de calcul de hash Tiger (192 bit) plutôt que sur SHA-1. Pour assurer un impact minimal en matière de performance, notamment lorsque la déduplication est utilisée sur des données primaires, les appliances de GreenBytes font un usage intensif de disques SSD qui agissent comme un cache devant les disque SATA. Selon GreenBytes, ses systèmes peuvent gérer, dans leur version actuelle, entre 4 et 216 To de données non dédupliquées en ligne.

HP :  Hewlett-Packard a récemment annoncé la disponibilité d’un nouveau module de déduplication de données qu’il va progressivement déployer sur ses baies de stockage et de sauvegarde sur disques au cours de l’année 2010 et au début 2011. Baptisée HP StoreOnce, la technologie de déduplication inline développée par les HP Labs devrait être intégrée sur les nouvelles appliances de backup D2D, sur les systèmes NAS en cluster X9000 de la marque, avant de faire son apparition sur de futures baies de stockage EVA. Comme il l’avait aussi laissé entendre lors de sa conférence Tech@Work de Francfort, HP entend également intégrer StoreOnce dans son logiciel de sauvegarde HP Data Protector.

L’usage de cette architecture est destiné à s’étendre a expliqué Dave Roberson, le vice-président senior en charge de la division HP StorageWorks. « Nous commençons par la  sauvegarde et l'année prochaine nous serons en mesure d'introduire la déduplication de bout en bout. Personne d'autre ne fait cela ». Malgré l’annonce de StoreOnce, HP continuera à vendre la solution de déduplication en post-traitement de Sepaton, qu’il intègre actuellement dans ses bibliothèques virtuelles haut de gamme (gamme VLS), même si le constructeur pourrait progressivement remplacer cette ligne de produit avec la montée en puissance et en capacité de la gamme D2D. Le premier D2D équipé de la technologie StoreOnce, le D2D4312, débute ainsi à 18 To et peut atteindre  48 To de capacité brute. L’appliance a un prix d’entrée de 94 999$.

IBM : avec le rachat de l’israélien Diligent en 2008, IBM a acquis celui qui est aujourd’hui considéré comme l’un des principaux concurrents d’EMC. Comme dans le cas des appliances DataDomain, la technologie des appliances Protectier s’appuie sur un algorithme de déduplication en ligne capable de dédupliquer les données à la volée. Selon Big Blue, un cluster d’appliances Protectier peut ingérer jusqu’à 500 Mo de données par seconde. Depuis 2009, Big Blue a enrichi les appliances ProtecTier de fonctions de réplication asynchrone.

le mag it premium
vues 1119 lectures commentaire 5 commentaire(s) recommandation notez cet article
4

Réagissez à cet article

Votre Pseudo

Commentaire

Pertinence du commentaire : 3
Par LOL
Cela fait 4 ans que je bosse sur la deduplication. Donc, bien avant que cela devienne a la mode et fasse la une des magazines.

Alors quand je vois des taux de reduction de 90 à 95%, je me marre. Il suffit de reflechir 2 minutes : A partir de 100TB de donnees brutes, j'obtiens combien de données dedupliquees ?
Ce simple calcul et quelques secondes passees a reflechir sur le resultat montre que le marketing est un bien mauvais menteur, et que tout le monde le gobe sans faire travailler un seul neuronne.

La duplication des fichiers est importante dans le serveurs de fichiers qui hebergent les données non structurés des utilisateurs (et encore, les donnees importantes sont un minimum centralises, ne serait ce que pour gerer les versions, meme artisanalement), et permet ici de gagner quelques pourcents, voir quelques dizaines de pourcents pour les repertoires "home" des utilisateurs. Mais quel est le volume de donnees de l'entreprise devolue a ce type de données ?

Bref, quand j'implemente des technologies de sauvegarde modernes et recentes chez mes clients, je n'evoque meme pas le gain due a la deduplication, tant il est incertain, aleatoire et toujours peu significatif.

La bataille se joue sur l'automatisation, la structuration, l'analyse des données, le cycle de vie et surtout sur leur archivage rapide, efficace et legale et non pas sur leur deduplication, sauf dans des cas tres precis que le marketing tend a generaliser a outrance.

Autre argument. Combien coutait 1TB de disk il y a 3 ans ? Combien coute t il aujourd'hui. Donc aujourd'hui (ce ne sera peut etre pas vrai demain), a quoi sert de depenser de l'argent (process, risques de production, complexite etc ...) pour dedupliquer ?

Bref, la deduplication est un outil, qui a un interet sur des lots tres precis, mais il ne sert pas a grand chose de la generaliser.
Et quand les donnees se trouvent sous des disks virtuels type VMWare par exemple ........ elle fait quoi la baie de stockage qui deduplique ?

LOL
Noter ce commentaire
Pertinence du commentaire : 3
Par La rédaction
@LOL : le troisième paragraphe de votre commentaire laisse à penser que votre réflexion porte sur la déduplication au niveau des fichiers. Mais c'est oublier la déduplication au niveau bloc...
Accessoirement, la déduplication au niveau bloc permet précisément d'apporter une réponse à votre remarque sur les données stockées sur les fichiers disques de machines virtuelles. A tel point que VMware intègre de la déduplication au niveau bloc au sein de son outil Data Recovery. La FAQ correspondante est ici :
http://www.vmware.com/files/pdf/vmware-data-recovery-fq-en.pdf
Noter ce commentaire
Pertinence du commentaire : 4
Par LOL
La deduplication au niveau block. Vaste sujet qui approche le domaine des mathematiques pures.
D'un point de vue mathematique, on peut tres bien considerer que l'ensemble des donnees de la terre se resument a un 1 et a un 0. Avec 2 bits, on reconstitue les millions de TB utilisées a ce jour. Ca c'est le discours marketing.
D'un point de vue pratique, le plus on deduplique au niveau block, le plus on a besoin de stocker les metadatas associees dans une base volumineuse. Cette base, il faut alors la sauvegarder a son tours !!!!! Ainsi que les blocks associes !!!!

Bref, pas simple, d'autant que le pre ou post processing est gourmand en temps de calcul, memoire etc .....

Donc, pas simple du tout ......

Bref, le deduplication au niveau block presente un interet, mais comme toujours sur des lots particuliers, et cela ne peut s'appliquer a l'ensemble des donnees d'une entreprise, d'ou des gains parfois derisoires.

Revenons en a VMWare. Data Recovery permet dette deduplication au niveau block. Sur des VMDKs "thick"s, pas de problemes, on elimine les trous grace a cette methode. CEci dit, il y a longtemps qu'Asigra et les autres savaient le faire, ce n'est pas nouveau, meme si c'est utile.
Quel est l'interet sur des VMDK "thin"s ? Bof, il n'ya plus beacoup de trous en queue de vmdk, et les trous que l'on pensait triomphalement avoir vaincus, finalement n'etaient pas des donnees, mais du gras bien mal placé.

Je reste persuade que ces techniques qui peuvent presenter un interet certain aujourd'hui, ne devraient pas exister si les developpeurs de FS et OS avaient apprehender ces problematiques des le debut. Peut on les blamer ? Qui pouvait imaginer qu'aujourd'hui on utilise autant de TB et des CPUS aussi puissantes ?

Les FS generalement utilisees, fragmentent, laissent des trous, ne se reorganisent pas de maniere native pour eliminer les trous et autres zones que j'appel les "terrains vagues". Ceci fait le bonheur des marketeux en deduplication block.

Ou la technologie est tres interessante, c'est au niveau du backup, et les techniques appeles "delta blocking" et "incrementale for ever". Ici le gain est tres significatif par rapport aux solutions classiques, parfois meme phenomenale.

On peut en reparler, mon fiston m'appel pour le repas :) :) :)

A bientot, et vos dossiers techniques sont tres biens, je n'en manque pas un seul, meme si quelquefois je releve des petites erreures sur les quelques sujets que je maitrise (mais bon, il n'y que ceux qui ne font rien qui n'ecriront jamais une coquille).
Vous etes je pense de tres tres bons vulgarisateurs de technologie. Continuez, je donne meme certains liens a des clients en mal d'explication claires et impartiales.

LOL
Noter ce commentaire
Pertinence du commentaire : 5
Par je_payerais_pas
Et vous comptez faire payer pour un article pareil ?

Bon. Allez-y, ça me manquera pas de ne pas l'avoir en ligne.
Noter ce commentaire
Pertinence du commentaire : 1
Par DS45
A n'en pas douter la deduplication c'est l'avenir. cependant j'ai encore un peu de mal avec l'emploi de cette technologie en tier 0 ou 1 dans la mesure ou les processus associes sont encore trop consommateurs et viennent parfois contrarier les backup de nuit (ormis avec un produit de type EMC Avamar ou Symantec Puredisk). On aurait pu aussi evoquer l'un des precurseurs Quantum avec ses produits DXI et StorNext, mais comme toujours je trouve au contraire aue cet article fait un bon balayage du marche.
Noter ce commentaire
Les plus populaires
Les plus lus Les mieux notés Les plus commentés
LES BLOGS DE LA REDACTION
Valery Marchive

Indi@

5 juillet 2010 : journée de chaos en Inde ?

Au moins 86 vols intérieurs annulés à Mumbai, des salariés de SSII telles…

Casualtek

Userlock : sécuriser les accès et les infrastructures

La mode est au DLP, les gourous de la sécurité cherchent de plus en plus à…

Start-up IT

Faut-il supprimer les avantages de la loi ISF pour les PME/PMI ?

Dans un contexte où le gouvernement cherche des économies budgétaires un peu…

LesSourcesIT
Livres blancs
couv symantec 1 0910

Rapport sur les failles de Sécurité

Symantec a établi l’une des sources les plus complètes en matière de recensement des failles de sécurité dans le ...

couvsap v2 3 0410

La Business Intelligence agile - Les raisons et les modalités de l’adoption de l'informatique décisionnelle en libre service dans les entreprises

Un certain nombre de facteurs influencent la gestion des entreprises : les processus métier sont de plus en plus intég...

Les dossiers du MagIT
Les dernières offres d'emploi

 Développeur front office H/F

Hays Informatique & Télécoms recherche pour son client, Logitec SAS, filiale d'Euronics France SA, dans le cadre de notre développement, un Développeur front office pour son site d'Angres. Vous...

 Technicien de maintenance informatique H/F

Kelly IT Resources, division du groupe Kelly Services spécialisée dans le recrutement de profils bac+2 à Ingénieur, recrute pour un de ses clients, un(e) technicien(ne) de maintenance...

 Chargé d'équipe H/F

L'agence Manpower NEUILLY CADRES INGENIERIE recherche pour l'un de ses clients un Chargé d'équipe déploiement H/F. Descriptif : - coordonner et piloter les différents acteurs d'un déploiement, -...

 Chargé de mission H/F

L'agence Manpower PARIS ARTS GRAPHIQUES INFORMATIQUE recherche pour l'un de ses clients un Chargé de mission SI - Service Actionnaire H/F. Missions : - Support et formation sur les applications...

 Technicien informatique H/F

L'agence Manpower LYON CADRES INFORMATIQUE recherche pour l'un de ses clients un Technicien informatique H/F. Mission principale : Personne en charge d’une grande partie de la maintenance...

Click Here