Stockage : Pure Storage décline ses FlashBlade en cluster pour l’IA

La nouvelle configuration FlashBlade//EXA correspond à un ensemble de nœuds de stockage qui partagent leurs contenus en pNFS pour nourrir des serveurs de GPU individuellement en données pour l’entraînement des modèles.

Pure Storage décline sa gamme de NAS FlashBlade en un nouveau modèle FlashBlade//EXA dédié aux supercalculateurs et aux clusters d’entraînement des modèles d’IA. Le point saillant de cette nouvelle gamme est qu’elle partage ses données avec le protocole pNFS (Parallel NFS). C’est-à-dire qu’il ne s’agit plus d’une machine seule, mais d’une quantité variable d’appareils de stockage assemblés en réseau, chacun pouvant communiquer individuellement et à pleine puissance avec des dizaines de milliers de serveurs de calcul équipés de GPU.

Selon un billet de blog que Pure Storage vient de publier au sujet de FlashBlade//EXA, l’enjeu de cette nouvelle configuration très haut de gamme serait d’apporter des débits pouvant totaliser jusqu’à à 10 To/s par volume, avec des capacités qui iraient bien au-delà de 100 Po. Une FlashBlade traditionnelle va plutôt apporter aux machines alentour, des débits qui se comptent en dizaines de Go/s, pour une capacité bien bien moindre.

Par rapport au NFS tout court, dans lequel un serveur de stockage met sur le réseau le contenu de ses propres disques, pNFS suppose qu’il y ait, d’un côté, des serveurs qui indexent les fichiers et, de l’autre, des baies de disques qui contiennent les données.

Ici, les serveurs d’index (Pure Storage parle de serveurs de métadonnées) sont des châssis FlashBlade 5U traditionnels. Il est possible d’en déployer un à dix pour un même volume de données. Chaque châssis peut contenir une dizaine de lames, chacune équipée d’un à quatre DFM TLC de 37,5 To (les SSD spéciaux de Pure Storage) pour stocker les informations relatives à l’emplacement des fichiers.

Les baies de disques qui contiennent les données, en revanche, sont des tiroirs de SSD tout ce qu’il y a de plus standard. Et c’est une surprise dans le catalogue du fournisseur, lequel ne jurait jusqu’ici que par l’utilisation de ses DFM, 2,25 fois plus capacitifs. En fait, à bien y regarder, il s’agit juste de tiroirs BOF (« Bunch Of Flash ») qui pourraient être de n’importe quelle marque. Pure Storage exige juste qu’ils aient des caractéristiques minimums : 32 cœurs de processeurs, 192 Go de RAM, entre 12 et 16 SSD NVMe et, si possible, deux cartes Ethernet offrant chacune une connectivité de 400 Gbit/s.

Démultiplier les liens pour éviter les goulets d’étranglement

L’architecture pNFS, qui sépare les requêtes d’accès et les lectures/écritures sur deux liens réseau distincts, évite d’autant plus les goulets d’étranglement qu’elle permet à chaque serveur de calcul d’avoir une paire de liens dédiée à chaque opération. Il suffit de déployer suffisamment de serveurs d’index redondants et de baies de disques partageant le même volume de données.

En pratique, un serveur de calcul envoie une requête de lecture ou d’écriture NFS traditionnelle à l’un des serveurs de métadonnées qui indexe les contenus. Ce serveur répond en indiquant l’adresse SCSI (ou NVMe) des blocs qui contiennent (ou contiendront) le fichier requis. L’adresse pointe une unité de stockage accessible depuis un autre lien réseau, via un protocole iSCSI ou, ici, NVMe/RoCE. Le serveur de calcul dispose d’un client NFS 4.1 qui décode l’adresse et lui permet ensuite d’aller lire ou écrire directement ces blocs sur la bonne unité de stockage.

Dans le cadre de clusters de calcul intégrant des GPU de Nvidia, ce fonctionnement est par ailleurs compatible avec le protocole GPUDirect de ce même constructeur. Et même compatible avec le protocole Spectrum-X de Nvidia qui correspond à un réseau RoCE (RDMA-over-Converged Ethernet), car Pure Storage recommande d’utiliser avec la FlashBlade//EXA des cartes Ethernet et des switches Nvidia. 

Historiquement, le monde du supercalcul utilise le système de stockage Lustre, dont le fonctionnement est similaire, mais qui, tout en étant Open source, est fortement dépendant du fournisseur DDN. Parallel NFS reprend le principe de Lustre avec l’avantage d’être plus standard : toutes les applications qui accèdent à leurs fichiers en NFS sont compatibles et il suffit d’un réseau Ethernet pour faire fonctionner pNFS.

La FlashBlade//EXA devrait être commercialisée d’ici à cet été.

Pour approfondir sur SAN et NAS