Opinion : la fin pour les appliances de backup dédupliquées ?

Marc Staimer analyse pourquoi le marché des appliances de sauvegarde dédupliquées décline malgré la présence d'acteurs de taille comme EMC, Symantec et HP.

Le marché des appliance de sauvegarde dédupliquées à la cible est un marché de plusieurs milliards de dollars (3,07 Md$ pour le marché des appliances PBBA selon IDC) dominé par des acteurs comme EMC (DataDomain), Symantec (NetBackup), IBM (Protectier), HP (StoreOnce), Quantum ou Exagrid. Après des années de croissance, il a connu un recul au premier trimestre 2014, après il est vrai plusieurs trimestres de ralentissement de sa progression.

Les appliances de sauvegarde à la cible avec déduplication sont apparues au début des années 2000. Elles ont été conçues pour résoudre un problème croissant de réduction des fenêtres de sauvegarde lié à la croissance exponentielle des volumes de données dans les entreprises. Les sauvegardes commençaient à dépasser les fenêtres de temps qui leur été allouées et devaient parfois être interrompues. Le fait de changer la nature des cibles de sauvegarde, historiquement basées sur des lecteurs de bandes par des baies de stockage sur disque avait initialement permis de résoudre ce problème de performance. Mais les coûts ont explosé : car les logiciels de backup, initialement conçus pour s’interfacer avec des lecteurs de bandes ou avec des librairies de bandes, procèdent typiquement par sauvegardes complètes hebdomadaires, complétées par des sauvegardes incrémentales intermédiaires au quotidien. Le problème est que cette approche crée de multiples copies des mêmes données, un fait sans grosses conséquences de coûts avec de la bande, mais avec un impact de coût significativement plus élevé lorsque l’on sauvegarde sur disque.

À l’époque, peu de logiciels de sauvegarde intégraient un support de la déduplication. Les appliances de sauvegarde dédupliquées sont donc nées pour pallier ce manque et permettre de réduire sensiblement le coût de la sauvegarde sur disque ; pour le rendre compétitif, voir inférieur à celui de la bande. La clé de leur succès a été que ces appliances ne nécessitaient aucun changement aux logiciels de sauvegarde utilisés par les utilisateurs.

Ce problème est toutefois en train de disparaître rapidement, car la plupart des logiciels de sauvegarde incluent désormais des capacités de déduplication. Et la disparition d’un problème se traduit, en général, par celle du marché qui lui est associé. Il y a encore pire pour les appliances de sauvegarde : Nombre de logiciels intègrent des fonctions de déduplication à la source, qui dédoublonnent les données avant qu’elles ne quittent le serveur en cours de sauvegarde. La déduplication à la source à l’avantage d’accélérer les sauvegarde en limitant le volume de données transférées depuis les serveurs sauvegardés. Et le fait de transmettre moins de données permet de résoudre la question des fenêtres de sauvegarde. C’est d’ailleurs la raison pour laquelle la plupart des appliances de déduplication à la cible s’intègrent désormais avec des composants de déduplication à la source.

Les appliances de déduplication à la cible doivent aussi faire face à la menace que constitue l’arrivée quasi-gratuite (voire gratuite) de la déduplication dans les systèmes de stockage primaire. La déduplication du stockage primaire permet de réduire les volumes de données sur les baies de stockage, mais fait aussi que ces baies de stockage peuvent désormais être utilisées comme cible de sauvegarde intégrant la déduplication.

Dans ce contexte, quel est l’avenir des appliances de sauvegarde dédupliquées. Cette question est d’autant plus importante que ces appliances sont souvent vendues à un prix bien plus élevé que des baies de stockage traditionnelles offrant les mêmes capacités.

Plusieurs des spécialistes du stockage semblent l’avoir compris et ont réagi de façons différentes. Voici quelques-unes des réactions observées :

  1. Certains mettent l’accent sur ce qu’ils décrivent être les avantages des appliances de déduplication à la cible, même lorsque ce ne sont pas des avantages et plus souvent que d’autres des exagérations marketing.
  2. Certains ont commencé à repositionner les appliances de sauvegarde comme une solution également adaptée aux besoins d’archivage en plus du backup.
  3. Enfin, d’autres multiplient les packages entre appliances de sauvegarde et logiciel de backup

Dans le premier cas, les constructeurs mettent en avant les ratios de déduplication des appliances et leurs bénéfices en matière de réplication. A la surface, ces avantages semblent réels. Mais en examinant les affirmations des constructeurs de plus près, on se rend compte que les affirmations des constructeurs n’ont guère de mérite.

Commençons par les ratios de déduplication. Les ratios sont en général une comparaison. La question est de savoir ce que l’on compare. Certains produits clament qu’ils offrent des ratios de déduplication de 100 pour 1. Cela semble étonnamment impressionant. Et si la plupart des ratios avancés par les logiciels de sauvegarde sont souvent moins impressionnants, certains semblent miraculeux. Cela signifie-t-il que les appliances de déduplication font un meilleur travail que les logiciels de backup. Non, car les ratios évoqués par les différents fournisseurs ne sont pas comparables.

Pour que les ratios puissent être utilisés à des fins efficaces de comparaison, chaque produit devrait ingérer les mêmes données à sauvegarder, afin d’éviter de comparer des pommes et des oranges. Le problème est qu’il n’y a pas de standard de l’industrie, ni même de standard de fait pour le calcul des ratios de déduplication.

Ainsi, si un logiciel de backup fait une sauvegarde complète unique, puis s’appuie ensuite sur des incrémentales, les déduplique et les compresse, le ratio n’aura rien d’impressionnant. Si l’on compare cela au ratio d’une appliance ou d’un logiciel qui effectuerait à chaque fois une sauvegarde en mode complet puis dédupliquerait ensuite les données avant de les écrire sur la cible, les ratios seront bien meilleurs, alors que dans la pratique, la quantité de données stockées sera supérieure.

L’objection la plus fréquente au « phénomène des ratios » consiste à comparer une appliance de sauvegarde dédupliquée à la cible avec un logiciel de sauvegarde disposant de capacités de déduplication.  Le problème est qu’il faudrait pour une mesure juste pouvoir désactiver les fonctions de déduplication du logiciel de sauvegarde. Et rares sont les logiciels qui le permettent.

La meilleure façon dévaluer la performance est sans doute de déterminer sur une période de temps assez longue le volume de stockage occupé par les sauvegardes et non le ratio de déduplication. Les ratios sont une manipulation marketing alors que la consommation réelle d’espace disque sur l’appliance est une mesure incontestable.

La notion de capacité de stockage estimée, en clair le volume de stockage qu’il faudrait consommer sans la déduplication, est un autre argument marketing. Les fournisseurs multiplient la capacité utile de leurs baies par le ratio attendu de déduplication pour calculer une capacité estimée de stockage. Le fait d’utiliser des ratios de déduplication douteux, rend ce calcul d’autant plus douteux.

Les fabricants d’appliances de déduplication aiment aussi promouvoir le débit de sauvegarde de leurs baies. Mais cette performance estimée est tout aussi douteuse que la notion de capacité de stockage estimée. Et elle est rendue encore plus compliquée par l’émergence de technologie de déduplication à la source comme EMC DataDomain Boost ou Avamar, Symantec OST et HP Catalyst. Ces logiciels clients sont utilisés en combinaison avec les appliances de sauvegarde dédupliquées. Typiquement le logiciel de déduplication à la source fonctionne sur le serveur de backup et sur les serveurs d’application ou serveurs de bases de données. Ce logiciel travaille de façon coopérative avec les appliances de sauvegarde en dédoublonnant les données avant qu’elles ne quittent le serveur source, ce qui permet de réduire le volume de données transmises via le réseau. Une fois les données streamées sur l’appliance de sauvegarde, celle-ci applique son algorithme de déduplication globale.

La performance estimée est mesurée en To/h et est le produit du volume de données sauvegardées par le ratio de déduplication. Là encore, ce n’est pas un chiffre que l’on peut facilement comparer à d’autres.  En fait seul la performance brute devrait servir de critère de comparaison.

La réplication sans réhydratation de données est un autre argument mis en avant par les vendeurs. Le problème est que les données n’ont pas à être réhydratées lors de la réplication. Tout système de stockage contenant des données dédupliquées fournies par logiciel de backup software ou dédupliquées via son propre algorithme ne nécessite pas la réhydratation de données lors de sa réplication…

Le fait de repositionner les appliances de sauvegarde dédupliquées à la cible sur le marché de l’archivage permet de se différencier des concurrents et d’élargir le marché potentiel. L’approche semble raisonnable puisque l’archivage se développe à vitesse exponentielle et semble proche de la sauvegarde.

Le problème est que les besoins de l’archivage et de la sauvegarde sont très différents. Les archives contiennent rarement le type de données facilement dédupliquable que  l’on met dans une appliance de sauvegarde. De plus, le volume d’une archive peut aujourd’hui atteindre plusieurs dizaines de Pétaoctets dans certaines entreprises et dans certains secteurs comme le HPC friser l’exaoctet. Cette archive doit être indexée par un moteur de recherche, et il faut garantir son stockage à très long terme, parfois des dizaines ou des centaines d’années.

Enfin, la combinaison des appliances avec un logiciel de sauvegarde est la dernière astuce des constructeurs, et ce type de package progresse à un rythme très supérieure à celui des appliances de sauvegarde traditionnelles, selon IDC.

Au final, les appliances de déduplication à la cible commencen t à perdre leur intérêt dans le datacenter. Les tentatives des constructeurs de doper le marché peuvent enrayer temporairement son déclin, mais ne devraient pas le stopper. Car le problème que tentaient de résoudre ces appliances est en train de devenir un souvenir du passé…

A propos de l’auteur : 
Marc Staimer est le fondateur est l’analyste en chef de Dragon Slayer Consulting à Beaverton, dans l’Orégon. Ore. Marc peut être joint à l’adresse marcstaimer@me.com.

 

Pour approfondir sur Backup et protection de données

Close