(Cet article est la seconde partie d'un premier article publié le 12 juillet 2010 sur LeMagIT)
Dans tous les cas, la déduplication produit des résultats surprenants en matière de réduction des données. Si la plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) - qui ne sont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1 à 20:1. Ce qui signifie une réduction de 90 à 95% du volume des données. Dans la pratique cela veut dire qu’une appliance de déduplication avec 40 To de capacité disque utile pourra en fait sauvegarder 400 à 800 To de données.
Mais la déduplication présente d’autres bénéfices. A la source, par exemple, elle permet une réduction massive des fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces deux caractéristiques permettent d’envisager des scénarios de protection des agences distantes jusqu’alors impossibles, le tout en assurant une bien meilleure sécurité des données. Il est ainsi facile de comprendre que les chances de restaurer des données dans de bonnes conditions, avec un système de sauvegarde centralisé opéré par des professionnels, est bien plus élevé qu’avec un système distribué s’appuyant sur des lecteurs de bandes souvent incertains distribués en agences... Plus généralement le fait d’avoir des données déjà dédupliquées simplifie aussi les opérations de réplication entre des appliances de sauvegardes réparties sur plusieurs sites.
La déduplication du stockage primaire, futur eldorado ?
Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de sauvegarde. Chez EMC, Data domain et Avamar sont pour l’instant cantonnés à des appliances dédiées, conçues pour le backup ou l'archivage à court terme; il en va de même chez IBM avec les appliances ProtecTier ou chez HP, Sepaton et FalconStor.
NetApp se distingue toutefois de la masse, puisqu’il n’hésite pas à recommander l’usage de la déduplication sur le stockage primaire. Le constructeur n’a jamais clamé qu’il disposait de la meilleure technologie de déduplication du marché pour la sauvegarde, mais sa présence importante sur le marché NAS l’a amené très tôt à considérer l’usage de la déduplication sur des données primaires et sur des données «nearline». A tel point que le constructeur n’hésite plus à recommander l’usage de sa technologie de déduplication embarquée (en mode post-processing) sur le stockage primaire, dans certains scénarios comme le déploiement de postes de travail virtualisés. Il est fort probable que NetApp ne restera pas durablement le seul sur ce créneau (et qu'il devra aussi revoir sa technologie pour proposer un mode de traitement inline).
Déjà, la plupart des systèmes de stockage à base du système de fichiers ZFS (comme ceux de Nexenta ou de GreenBytes) sont capables d’appliquer la déduplication sur des données primaires. Et ce n’est sans doute qu’une question de temps avant qu’Oracle ne commence lui aussi à jouer de la technologie dans ses baies de stockage OpenStorage. Chez HP, l’urgence du moment est à l’intégration de la nouvelle technologie maison, StoreOnce, dans l’ensemble des baies de sauvegarde. Mais, déjà, le constructeur a indiqué que StoreOnce a vocation à être intégré dans l’ensemble de ses systèmes de stockage et donc, sans doute, dans les baies SAN LeftHand P4000 et dans les futures baies EVA de la série P6000. Chez EMC, on ne cache pas non plus qu’un des eldorado futurs est l’usage de la déduplication dans les systèmes de stockage primaires.
Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux processeurs multicoeur AMD et Intel qui motorisent les baies de stockage et pour tirer profit de façon optimale de la capacité des nouveaux disques SSD. Et dans bien des têtes, la déduplication des données primaires est l’une des fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de stockage...
Les acteurs de la déduplication
EMC : EMC a fait ses premiers pas dans la déduplication avec le rachat d’Avamar, l’un des pionniers de la déduplication à la source en 2006. Depuis, le constructeur a mis la main sur DataDomain dans une bataille épique avec NetApp. La firme est aujourd’hui le principal acteur du secteur avec des technologies qui sont considérées comme comptant parmi les meilleures du moment. Avamar est notamment considéré par les spécialistes comme la meilleure technologie de déduplication à la source. Alors qu’à ces débuts, la technologie était vendue sous la forme d’un logiciel (à installer sur un serveur approuvé), EMC la commercialise aujourd’hui sous la forme d’une appliance intégrée combinant le contrôleur Avamar (un serveur à base de puces Xeon) et une baie de disques.
DataDomain, de son côté est la technologies de déduplication à la cible la plus déployée du marché. Par rapport à certains concurrents comme les gateway Protectier d’IBM, la solution d’EMC manque encore d’un mode cluster failover entre deux noeuds DataDomain, qui permettrait d’assurer la continuité des opérations de sauvegarde même en cas de chute d’un noeud. Pour l’instant, la firme propose une solution de cluster de performance, qui améliore les taux de transferts, mais ne règle pas le problème de chute d’un noeud. Reste que cette carence doit être considérée à sa juste mesure : dans le cas (rare) de chute d’un noeud, les processus de sauvegarde en cours sur ce noeud devront être relancés (à aucun moment le catalogue ou les données déjà sauvegardées lors de job précédents ne sont mis en péril par la chute d’un contrôleur). Il est à noter que si les technologies de déduplication à la source et à la cible d’EMC sont aujourd’hui disjointes, elles pourraient ultimement converger, un point que le constructeur a laissé entendre (sans toutefois en faire la promesse ferme) lors du dernier EMC World.
Falconstor : Notamment connu pour son offre logicielle VTL IPStor, Falconstor propose depuis déjà plusieurs années des fonctions de déduplication en mode post-processing dans sa solution VTL. Selon l’éditeur, la solution IPStor peut ingérer des données à un rythme pouvant atteindre 500 Mo/s par noeud avec une limite de 4 noeuds en cluster failover (n+1).
En parallèle de sa solution de déduplication VTL, l’éditeur a développé une solution de déduplication de données baptisée File-interface Deduplication System (FDS), qui permet de dédupliquer des données en mode post-processing sur des volumes NFS et CIFS (la solution est alors adaptée à des scénarios de sauvegarde sur disque). Selon FalconStor, FDS supporte l’API OST de Symantec (intégrée à NetBackup et à BackupExec) et serait capable de supporter des débits de l’ordre de 5.5 To/h sur un noeud équipé de deux liens 10 Gigabit Ethernet.
IPStor est notamment utilisé par Oracle pour ses librairies VTL. Hitachi Data Systems a aussi récemment noué un accord OEM avec FalconStor pour l’utilisation d’IPStor et de FDS en complément de ses systèmes de stockage AMS 2000.
GreenBytes : nouveau venu sur le marché, GreenBytes a développé une série d’appliances supportant la déduplication inline pour le stockage primaire et la sauvegarde. Les appliances GB-X de GreenBytes s’appuient sur le système d’exploitation OpenSolaris et le système de fichiers de Sun. Leur algorithme de déduplication s’appuie sur le système de calcul de hash Tiger (192 bit) plutôt que sur SHA-1. Pour assurer un impact minimal en matière de performance, notamment lorsque la déduplication est utilisée sur des données primaires, les appliances de GreenBytes font un usage intensif de disques SSD qui agissent comme un cache devant les disque SATA. Selon GreenBytes, ses systèmes peuvent gérer, dans leur version actuelle, entre 4 et 216 To de données non dédupliquées en ligne.
HP : Hewlett-Packard a récemment annoncé la disponibilité d’un nouveau module de déduplication de données qu’il va progressivement déployer sur ses baies de stockage et de sauvegarde sur disques au cours de l’année 2010 et au début 2011. Baptisée HP StoreOnce, la technologie de déduplication inline développée par les HP Labs devrait être intégrée sur les nouvelles appliances de backup D2D, sur les systèmes NAS en cluster X9000 de la marque, avant de faire son apparition sur de futures baies de stockage EVA. Comme il l’avait aussi laissé entendre lors de sa conférence Tech@Work de Francfort, HP entend également intégrer StoreOnce dans son logiciel de sauvegarde HP Data Protector.
L’usage de cette architecture est destiné à s’étendre a expliqué Dave Roberson, le vice-président senior en charge de la division HP StorageWorks. « Nous commençons par la sauvegarde et l'année prochaine nous serons en mesure d'introduire la déduplication de bout en bout. Personne d'autre ne fait cela ». Malgré l’annonce de StoreOnce, HP continuera à vendre la solution de déduplication en post-traitement de Sepaton, qu’il intègre actuellement dans ses bibliothèques virtuelles haut de gamme (gamme VLS), même si le constructeur pourrait progressivement remplacer cette ligne de produit avec la montée en puissance et en capacité de la gamme D2D. Le premier D2D équipé de la technologie StoreOnce, le D2D4312, débute ainsi à 18 To et peut atteindre 48 To de capacité brute. L’appliance a un prix d’entrée de 94 999$.
IBM : avec le rachat de l’israélien Diligent en 2008, IBM a acquis celui qui est aujourd’hui considéré comme l’un des principaux concurrents d’EMC. Comme dans le cas des appliances DataDomain, la technologie des appliances Protectier s’appuie sur un algorithme de déduplication en ligne capable de dédupliquer les données à la volée. Selon Big Blue, un cluster d’appliances Protectier peut ingérer jusqu’à 500 Mo de données par seconde. Depuis 2009, Big Blue a enrichi les appliances ProtecTier de fonctions de réplication asynchrone.




Par LOL







