Déduplication de données : faites faire une cure d'amaigrissement à votre stockage (2ème partie)

La déduplication de données est actuellement l'une des technologies les plus prometteuses et son adoption s'accélère dans les entreprises. D'ici à 2015, les trois quarts des entreprises devraient ainsi y avoir recours pour la sauvegarde de leurs données, quand elle ne l'utiliseront tout simplement pas pour leurs données primaires. Enquête sur une technologie en vogue qui suscite encore beaucoup de questions.

(Cet article est la seconde partie d'un premier article publié le 12 juillet 2010 sur LeMagIT)

Dans tous les cas, la déduplication produit des résultats surprenants en matière de réduction des données. Si la plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) - qui ne sont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1 à 20:1. Ce qui signifie une réduction de 90 à 95% du volume des données. Dans la pratique cela veut dire qu’une appliance de déduplication avec 40 To de capacité disque utile pourra en fait sauvegarder 400 à 800 To de données.

Mais la déduplication présente d’autres bénéfices. A la source, par exemple, elle permet une réduction massive des fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces deux caractéristiques permettent d’envisager des scénarios de protection des agences distantes jusqu’alors impossibles, le tout en assurant une bien meilleure sécurité des données. Il est ainsi facile de comprendre que les chances de restaurer des données dans de bonnes conditions, avec un système de sauvegarde centralisé opéré par des professionnels, est bien plus élevé qu’avec un système distribué s’appuyant sur des lecteurs de bandes souvent incertains distribués en agences... Plus généralement le fait d’avoir des données déjà dédupliquées simplifie aussi les opérations de réplication entre des appliances de sauvegardes réparties sur plusieurs sites.

La déduplication du stockage primaire, futur eldorado?

Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de sauvegarde. Chez EMC, Data domain et Avamar sont pour l’instant cantonnés à des appliances dédiées, conçues pour le backup ou l'archivage à court terme; il en va de même chez IBM avec les appliances ProtecTier ou chez HP, Sepaton et FalconStor.

NetApp se distingue toutefois de la masse, puisqu’il n’hésite pas à recommander l’usage de la déduplication sur le stockage primaire. Le constructeur n’a jamais clamé qu’il disposait de la meilleure technologie de déduplication du marché pour la sauvegarde, mais sa présence importante sur le marché NAS l’a amené très tôt à considérer l’usage de la déduplication sur des données primaires et sur des données «nearline». A tel point que le constructeur n’hésite plus à recommander l’usage de sa technologie de déduplication embarquée (en mode post-processing) sur le stockage primaire, dans certains scénarios comme le déploiement de postes de travail virtualisés. Il est fort probable que NetApp ne restera pas durablement le seul sur ce créneau (et qu'il devra aussi revoir sa technologie pour proposer un mode de traitement inline).

Déjà, la plupart des systèmes de stockage à base du système de fichiers ZFS (comme ceux de Nexenta ou de GreenBytes) sont capables d’appliquer la déduplication sur des données primaires. Et ce n’est sans doute qu’une question de temps avant qu’Oracle ne commence lui aussi à jouer de la technologie dans ses baies de stockage OpenStorage. Chez HP, l’urgence du moment est à l’intégration de la nouvelle technologie maison, StoreOnce, dans l’ensemble des baies de sauvegarde. Mais, déjà, le constructeur a indiqué que StoreOnce a vocation à être intégré dans l’ensemble de ses systèmes de stockage et donc, sans doute, dans les baies SAN LeftHand P4000 et dans les futures baies EVA de la série P6000. Chez EMC, on ne cache pas non plus qu’un des eldorado futurs est l’usage de la déduplication dans les systèmes de stockage primaires.

Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux processeurs multicoeur AMD et Intel qui motorisent les baies de stockage et pour tirer profit de façon optimale de la capacité des nouveaux disques SSD. Et dans bien des têtes, la déduplication des données primaires est l’une des fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de stockage...

Les acteurs de la déduplication

EMC : EMC a fait ses premiers pas dans la déduplication avec le rachat d’Avamar, l’un des pionniers de la déduplication à la source en 2006. Depuis, le constructeur a mis la main sur DataDomain dans une bataille épique avec NetApp. La firme est aujourd’hui le principal acteur du secteur avec des technologies qui sont considérées comme comptant parmi les meilleures du moment. Avamar est notamment considéré par les spécialistes comme la meilleure technologie de déduplication à la source. Alors qu’à ces débuts, la technologie était vendue sous la forme d’un logiciel (à installer sur un serveur approuvé), EMC la commercialise aujourd’hui sous la forme d’une appliance intégrée combinant le contrôleur Avamar (un serveur à base de puces Xeon) et une baie de disques.

DataDomain, de son côté est la technologies de déduplication à la cible la plus déployée du marché. Par rapport à certains concurrents comme les gateway Protectier d’IBM, la solution d’EMC manque encore d’un mode cluster failover entre deux noeuds DataDomain, qui permettrait d’assurer la continuité des opérations de sauvegarde même en cas de chute d’un noeud. Pour l’instant, la firme propose une solution de cluster de performance, qui améliore les taux de transferts, mais ne règle pas le problème de chute d’un noeud. Reste que cette carence doit être considérée à sa juste mesure : dans le cas (rare) de chute d’un noeud, les processus de sauvegarde en cours sur ce noeud devront être relancés (à aucun moment le catalogue ou les données déjà sauvegardées lors de job précédents ne sont mis en péril par la chute d’un contrôleur). Il est à noter que si les technologies de déduplication à la source et à la cible d’EMC sont aujourd’hui disjointes, elles pourraient ultimement converger, un point que le constructeur a laissé entendre (sans toutefois en faire la promesse ferme) lors du dernier EMC World. 

Falconstor : Notamment connu pour son offre logicielle VTL IPStor, Falconstor propose depuis déjà plusieurs années des fonctions de déduplication en mode post-processing dans sa solution VTL. Selon l’éditeur, la solution IPStor peut ingérer des données à un rythme pouvant atteindre 500 Mo/s par noeud avec une limite de 4 noeuds en cluster failover (n+1).

En parallèle de sa solution de déduplication VTL, l’éditeur a développé une solution de déduplication de données baptisée File-interface Deduplication System (FDS), qui permet de dédupliquer des données en mode post-processing sur des volumes NFS et CIFS (la solution est alors adaptée à des scénarios de sauvegarde sur disque). Selon FalconStor, FDS supporte l’API OST de Symantec (intégrée à NetBackup et à BackupExec) et serait capable de supporter des débits de l’ordre de 5.5 To/h sur un noeud équipé de deux liens 10 Gigabit Ethernet.

IPStor est notamment utilisé par Oracle pour ses librairies VTL. Hitachi Data Systems a aussi récemment noué un accord OEM avec FalconStor pour l’utilisation d’IPStor et de FDS en complément de ses systèmes de stockage AMS 2000. 

GreenBytes : nouveau venu sur le marché, GreenBytes a développé une série d’appliances supportant la déduplication inline pour le stockage primaire et la sauvegarde. Les appliances GB-X de GreenBytes s’appuient sur le système d’exploitation OpenSolaris et le système de fichiers de Sun. Leur algorithme de déduplication s’appuie sur le système de calcul de hash Tiger (192 bit) plutôt que sur SHA-1. Pour assurer un impact minimal en matière de performance, notamment lorsque la déduplication est utilisée sur des données primaires, les appliances de GreenBytes font un usage intensif de disques SSD qui agissent comme un cache devant les disque SATA. Selon GreenBytes, ses systèmes peuvent gérer, dans leur version actuelle, entre 4 et 216 To de données non dédupliquées en ligne.

HP :  Hewlett-Packard a récemment annoncé la disponibilité d’un nouveau module de déduplication de données qu’il va progressivement déployer sur ses baies de stockage et de sauvegarde sur disques au cours de l’année 2010 et au début 2011. Baptisée HP StoreOnce, la technologie de déduplication inline développée par les HP Labs devrait être intégrée sur les nouvelles appliances de backup D2D, sur les systèmes NAS en cluster X9000 de la marque, avant de faire son apparition sur de futures baies de stockage EVA. Comme il l’avait aussi laissé entendre lors de sa conférence Tech@Work de Francfort, HP entend également intégrer StoreOnce dans son logiciel de sauvegarde HP Data Protector.

L’usage de cette architecture est destiné à s’étendre a expliqué Dave Roberson, le vice-président senior en charge de la division HP StorageWorks. « Nous commençons par la  sauvegarde et l'année prochaine nous serons en mesure d'introduire la déduplication de bout en bout. Personne d'autre ne fait cela ». Malgré l’annonce de StoreOnce, HP continuera à vendre la solution de déduplication en post-traitement de Sepaton, qu’il intègre actuellement dans ses bibliothèques virtuelles haut de gamme (gamme VLS), même si le constructeur pourrait progressivement remplacer cette ligne de produit avec la montée en puissance et en capacité de la gamme D2D. Le premier D2D équipé de la technologie StoreOnce, le D2D4312, débute ainsi à 18 To et peut atteindre  48 To de capacité brute. L’appliance a un prix d’entrée de 94 999$.

IBM : avec le rachat de l’israélien Diligent en 2008, IBM a acquis celui qui est aujourd’hui considéré comme l’un des principaux concurrents d’EMC. Comme dans le cas des appliances DataDomain, la technologie des appliances Protectier s’appuie sur un algorithme de déduplication en ligne capable de dédupliquer les données à la volée. Selon Big Blue, un cluster d’appliances Protectier peut ingérer jusqu’à 500 Mo de données par seconde. Depuis 2009, Big Blue a enrichi les appliances ProtecTier de fonctions de réplication asynchrone.

Microsoft : Microsoft propose des fonctions basiques de déduplication dans son système d’exploitation orienté stockage, Windows Storage Server 2008. Cet OS incorpore en effet un système de «Single Instance Storage» qui assure qu’un même fichier n’est pas stocké deux fois sur un même serveur de stockage. Cette fonction est par exemple utilisée par HP pour ses systèmes de stockage d’entrée de gamme Windows de la série StorageWorks X.

NEC  : Même si la solution n’est pas (encore ?) disponible en France, NEC propose aux Etats-Unis une solution de déduplication de données intégrée à sa solution de stockage en grille HydraStor. HydraStor, dont les prix débutent à environ 40 000 $ pour 4 To de capacité, s’appuie sur un algorithme de déduplication en ligne baptisé DataRedux, qui vient renforcer l’arsenal technologique des baies de stockage en cluster NEC. Selon NEC, sa solution d’entrée de gamme HydraStor HS-3 est une concurrente directe des systèmes EMC Data Domain DD630 tandis que la solution en grille HS-8 est une alternative au haut de gamme EMC. 

NetApp : NetApp a été le premier constructeur a proposer l’usage de la déduplication pour les données primaires. Ce mécanisme de déduplication s’appuie sur une fonction du système de fichiers WAFL qui calcule une somme de contrôle CRC pour chaque bloc de données qu'il stocke. Dans la pratique, la technologie de déduplication de NetApp est un processus optionnel qui fonctionne pendant les périodes de faible activité de la baie et examine toutes les sommes de contrôle; si les deux sommes de contrôle correspondent, l'un des blocs est remplacé par un pointeur WAFL. Le résultat est une nette réduction de l’espace utilisé sans impact significatif sur les performances. Le système de déduplication NetApp a été mis en oeuvre par de nombreux utilisateurs sur des types de données multiples, y compris les répertoires, bases de données et des images virtuelles, et la plupart ont rapporté des résultats positifs en matière de réduction de données et de  performance. Il est à noter que la déduplication est aussi mise en oeuvre par NetApp pour tous ses systèmes d'archivage ("Vault")

Nexenta Systems : Nexenta utilise le système de fichiers Solaris ZFS développé par Sun dans son système d’exploitation orienté stockage NexentaStor, dérivé d’OpenSolaris. NexentaStor incorpore toutefois de multiples améliorations telles que des fonctions de CDP, de réplication synchrone et, depuis la version 3.0, des fonctions de déduplication inline.

Quantum : Quantum est l’un des pionniers de la déduplication. La firme a hérité sa technologie de déduplication Blocklets lors du rachat d’ADIC en août 2006. Ce même ADIC avait lui même préalablement avalé Rocksoft, l’inventeur de la technologie, en mars 2006. Quantum s’est rapidement employé à intégrer la technologie Blocklets dans ses librairies de bandes virtuelles et a commencé à livrer ses premiers systèmes en décembre 2006 (les VTL DXi3500 et DXi5500). Depuis, la déduplication est devenue un élément standard des équipements de sauvegarde de la marque.

Récemment, Quantum a démocratisé l’usage de la technologie en lançant les gamme DXi4500 et DXi2500, deux familles d’appliances de déduplication à des tarifs très abordables et qui sont proposées avec des capacités de stockage à partir de 2 To. Ces équipements incluent en standard deux puces quadri-coeurs Intel Nehalem,  ce qui leur permet d’offrir des performances étonnantes pour leur niveau de prix.

Il est à noter que Quantum a été pendant plusieurs années le partenaire de déduplication d’EMC pour ses baies VTL mais que l’accord a connu une fin difficile avec le rachat de Data Domain par le numéro un mondial du stockage.

Notons enfin que Quantum a étendu l’usage de la déduplication au stockage primaire en intégrant sa technologie dans son système de fichier SAN StorNext 4.0. L’objectif est comme, dans le cas de NetApp, d’activer la déduplication pour les usages nearline ou pour les applications ne nécessitant pas les performances optimales. 

Sepaton : Sepaton a fait son entrée sur le marché de la déduplication avec sa librairie de bande virtuelle départementale DS2. Le constructeur a développé sa propre technologie de déduplication, baptisée DeltaStor (actuellement en version 5.3). Cette dernière est une technologie de déduplication en mode post-process qui s’appuie sur un système d’analyse différentielle des données. Selon Sepaton, il ne s’agit pas d’une technologie à base de hash. La technologie DeltaStore a l’avantage de fournir un système de déduplication global (tous les noeuds partagent un catalogue de déduplication unique, ce qui permet d’optimiser la déduplication à travers l’ensemble des noeuds). Elle optimise également les algorithmes utilisés en fonction de la nature des données ingérées. La technologie est utilisée dans les baies VTL Sepaton S2100-ES2, qui s’appuient sur des baies Hitachi AMS 2100 OEM mais aussi par plusieurs OEM dont HP pour ses librairies VLS.

Lire aussi sur LeMagIT :

Pour approfondir sur Backup

Close