Cet article fait partie de notre guide: GTC 2024 : le guide du nouveau leadership de Nvidia

Stockage : HPE accélère et densifie ses Alletra MP

Dans un même espace, les nouvelles versions des Alletra MP offrent quatre fois plus de capacité à deux fois plus de serveurs. La version SAN gagne aussi l’interconnexion de tous ses nœuds pour une latence réduite.

Un an après leur lancement, HPE met à jour ses baies de stockage Alletra MP. Les châssis 2U qui contenaient deux nœuds de contrôle peuvent désormais en contenir quatre, chacun équipé d’un AMD Epyc 7003 en 8, 16, ou 32 cœurs. Les nœuds 2U de données qui contenaient 20 SSD NVMe de 7,68 ou 15,36 To (soit 300 To maximum par nœud) peuvent désormais être remplacés par des nœuds 1U contenant 10 SSD de 61,44 To (soit 1,2 Po sur 2U).

En clair, il s’agit de pouvoir connecter deux fois plus de serveurs pour leur offrir quatre fois plus de capacité, dans un même espace du datacenter. Et, dit le constructeur, pour une consommation d’énergie qui serait elle aussi similaire.

« Nous appelons cette nouvelle génération Alletra MP for IA. Parce que nous pensons qu’elle est parfaitement adaptée pour remplacer très simplement les solutions de stockage à base de GPFS ou de BtrFS, très complexes à mettre en œuvre, que les centres de calcul déploient d’ordinaire pour faire de l’IA. Cela dit, nous revendiquons aussi d’être plus efficaces que des baies DDN dans le supercalcul ou Isilon dans les médias », lance Olivier Tant, l’expert de HPE concernant la déclinaison NAS des Alletra MP (en photo).

De plus, la version SAN (accès en mode bloc) fonctionne à présent comme la version NAS (mode fichier) : avec des switches RoCE 100 Gbit/s qui permettent à n’importe quel nœud contrôleur d’accéder à n’importe quel nœud de données.

« L’énorme avantage de notre solution sur la concurrence est que tous les nœuds d’un cluster se parlent. C’est-à-dire que nos concurrents vont être limités à des grappes de, disons, 16 nœuds de stockage, dont 3 seront utilisés pour les données redondantes de l’Erasure coding. Soit 15 à 20 % de la capacité. Nous, nous pouvons déployer un cluster de 140 nœuds, dont trois pour stocker la redondance Erasure coding de l’ensemble. Nous ne perdons qu’à peine plus de 2 % de la capacité. C’est un réel avantage économique » ; ajoute Olivier Tant.

La recette secrète : des switches RoCE 100 Gbit/s entre tous les nœuds

« Notre solution est aussi beaucoup plus performante, car, paradoxalement, nous n’utilisons aucun cache au niveau des contrôleurs » intervient Michel Parent, expert de HPE concernant, lui, la déclinaison SAN des Alletra MP.

« Avec des connexions NVMe/RoCE en 100 Gbit/s pour relier entre eux tous les éléments de la baie, les caches deviennent contre-productifs. »
Michel ParentExpert HPE, déclinaison SAN des Alletra MP

« Avec des connexions NVMe/RoCE en 100 Gbit/s pour relier entre eux tous les éléments de la baie, les caches deviennent contre-productifs. Non seulement ils n’accéléreraient rien, mais, en plus, ils imposent des opérations incessantes de copie et de vérification de la cohérence qui ralentissent la réactivité de la baie », précise-t-il. À sa connaissance, aucune autre baie de stockage du marché n’utilise de liaisons NVMe/RoCE à une vitesse aussi élevée que 100 Gbit/s par port.

Dans le détail, les machines du réseau accèdent en Ethernet ou en Infiniband (désormais compatible GPU Direct de Nvidia) au nœud contrôleur qui leur est le plus proche. Lors d’une écriture, ce nœud calcule l’Erasure coding des données – il crée des doublons – qu’il envoie pour stockage vers différents nœuds de SSD. Du point de vue des machines du réseau, tous les contrôleurs exposent les mêmes volumes de fichiers (mode NAS) ou les mêmes LUN (mode SAN).

En mode NAS, il y a tout de même un cache – constitué de quatre unités de mémoire Flash très rapide dites SCM – manifestement de marque Kioxia, à moins qu’Intel ait encore des Optane en stock – mais uniquement sur les nœuds de SSD. Cette zone tampon sert en l’occurrence d’espace de travail pour dédupliquer et compresser les données des fichiers. Pour mémoire, le système NAS utilisé dans l’Alletra est celui de Vast Data.

« Notre système de réduction des données est l’un des plus performants selon différents benchmarks. Tous les doublons dans les données sont éliminés. Puis, un algorithme parvient à trouver les blocs qui se ressemblent le plus et les compresse ensemble, ce qui est extrêmement efficace », argumente Olivier Tant.

« Tous les doublons dans les données sont éliminés. Puis, un algorithme parvient à trouver les blocs qui se ressemblent le plus et les compresse ensemble. »
Olivier TantExpert HPE, déclinaison NAS des Alletra MP

Il est à noter que les seuls morceaux de fichiers répartis sur plusieurs nœuds de SSD sont les doublons de l’Erasure coding. De préférence, un fichier sera relu depuis le nœud de SSD qui le contient en entier.

Plus précisément, lors d’une relecture, le contrôleur passe la requête au premier nœud de SSD choisi par le switch le plus disponible. Chaque nœud de SSD détient l’index de tous les contenus dans le cluster. S’il ne dispose pas lui-même des données à lire, il envoie au nœud qui les possède l’ordre de remonter le contenu demandé au contrôleur, lequel délivre enfin les données à la machine du réseau qui en avait fait la demande.

Sur la version SAN, le fonctionnement est similaire, si ce n’est que l’Alletra travaille bloc par bloc plutôt que fichier par fichier.

Avec une telle architecture, qui repose finalement plus sur la vitesse des switches que sur celle des contrôleurs, il devient très simple de basculer d’un nœud à l’autre, dès que celui interrogé ne répond pas assez rapidement sur son port Ethernet. Ainsi, si un nœud qui possède le fichier demandé ne peut pas répondre, ce sont ceux qui possèdent les morceaux des doublons qui répondent à sa place.

Une seule baie pour plusieurs types de stockage

Par ordre décroissant de vitesse, les SSD NVMe sont ici les plus rapides pour recomposer un fichier d’après leurs blocs de données, puisque chaque lien 100 Gbit/s au sein de l’Alletra est soit plus rapide, soit aussi rapide que le lien réseau entre l’Alletra et un serveur applicatif. Dans des baies concurrentes qui n’utilisent pas de switches entre un contrôleur et ses nœuds de SSD dédiés, on cherche plutôt à optimiser les connexions pour un usage particulier.

« J’insiste sur l’avantage économique de l’Alletra MP par rapport à ses concurrents », reprend Olivier Tant. « Dans un projet d’IA, une entreprise doit normalement mettre en place un pipeline de données. C’est une baie de stockage performante sur les écritures pour collecter les données issues des applications. Puis, vous recopiez son contenu vers une baie de stockage performante en lecture pour entraîner un modèle avec du Machine learning. Ensuite vous stockez le modèle résultant sur une baie hybride pour l’utiliser. »

« Avec l’Alletra MP, vous n’avez qu’une seule baie qui est aussi rapide pour la collecte, que pour le Machine learning et que pour l’utilisation du modèle », argumente-t-il.

À l’heure actuelle, les baies Alletra MP sont capables d’exécuter des fonctions sous la forme de containers, essentiellement le logiciel de sauvegarde Zerto. Lors d’un événement que HPE a organisé la semaine dernière pour ses clients à Paris, LeMagIT a pu entendre que ce mécanisme serait bientôt étendu pour faire de l’Alletra MP version SAN une véritable solution d’hyperconvergence.

Pour approfondir sur SAN et NAS

Close