Stockage : HPE apporte le mode objet à ses baies Alletra, pour l’IA

Le fabricant équipe sa plus rapide des baies de disques d’un système de stockage objet de sa conception, censé faciliter le travail de tri des données sensibles que les entreprises font en amont d’un projet d’IA.

HPE lance son propre système de stockage objet pour ses baies de disques Alletra MP. Ce logiciel n’a pas véritablement de nom, mais les Alletra MP vendues avec lui seront appelées des X10000. Et celles qui étaient jusque-là vendues avec le système de stockage d’origine, en mode bloc, seront désormais référencées comme des B10000.

Selon Jim O’Dorisio, le patron des offres stockage chez HPE, l’objectif des baies X10000 est de proposer une solution de stockage objet plus rapide que les autres.

« Nous allons d’abord aborder les besoins de datalakes actifs, c’est-Ă -dire qui se remplissent rĂ©gulièrement de nouvelles donnĂ©es tout en supportant des accès en lecture pour l’analyse, ce que vous ne trouvez jamais en cloud par exemple. Nous allons aussi proposer de la sauvegarde et de la restauration super rapides. Notre solution va permettre de restaurer une base de 100 To en quatre heures, contre 16 heures habituellement Â», se fĂ©licite-t-il lors d’une rencontre avec LeMagIT, Ă  l’occasion du salon HPE Discover qui vient de se tenir Ă  Barcelone.  

La prouesse technique ne saute pas spontanément aux yeux. Les solutions de stockage objet sont généralement positionnées pour offrir de la capacité au meilleur prix. Ce sont des produits vendus avec des disques durs rotatifs, à la vitesse anémique, peu chers. Dire qu’un stockage objet fonctionnera plus rapidement sur une Alletra MP fait figure de lapalissade. Une Alletra MP est une baie de stockage conçue à l’origine pour les applications de type SAP ou Oracle gourmandes en accès intensifs. Elle ne fonctionne qu’avec des SSD NVMe TLC, les médias plus rapides, et qu’avec un réseau très haut débit entre ses contrôleurs et ses tiroirs de disques.

Plus intriguant, HPE revendait déjà sur ses Alletra MP le système de stockage objet Ring de Scality. Différencier les deux offres n’a rien d’évident de prime abord.

« Scality se positionne sur l’élasticitĂ©, sur la capacitĂ© maximale de stockage, alors que nous positionnons notre système objet sur les performances Â», rĂ©torque Jim O’Dorisio, en faisant mine d’ignorer que Scality a justement lancĂ© rĂ©cemment une version Ring XP orientĂ©e sur la vitesse.

Mais Ă  en croire Jim O’Dorisio, il faudra attendre le printemps prochain pour vĂ©ritablement saisir l’intĂ©rĂŞt des Alletra X10000.

Une baie pour l’IA et pour toutes les donnĂ©es « non structurĂ©es Â»

« Notre idĂ©e est de prendre en considĂ©ration rapidement les applications d’IA sur site. D’abord parce que le mode objet est pourvu de mĂ©tadonnĂ©es, qui peuvent servir Ă  dĂ©crire le sens et la conformitĂ© rĂ©glementaire des donnĂ©es Â», dit Jim O’Dorisio, en suggĂ©rant que le mode objet faciliterait le travail de nettoyage des informations que les entreprises doivent faire en amont d’un projet d’IA.

GĂ©nĂ©ralement, ce travail est fastidieux, car les entreprises utilisent des systèmes de stockage en mode fichier, plus rapides que le mode objet, mais dĂ©pourvus d’un dispositif d’étiquetage aussi Ă©voluĂ©. Cela dit, les donnĂ©es nettoyĂ©es doivent encore ĂŞtre vectorisĂ©es pour ĂŞtre ingĂ©rĂ©es par une IA. Or, on ne voit pas bien en quoi le stockage de vecteurs – juste des nombres avec plusieurs virgules â€“ gagnerait Ă  se faire en mode objet plutĂ´t qu’en mode fichiers.

« En vĂ©ritĂ©, c’est bien plus qu’un système de stockage objet que nous avons dĂ©veloppĂ© pour l’Alletra MP X10000. C’est un système d’exploitation entier pour les donnĂ©es non structurĂ©es Â», argumente encore Jim O’Dorisio.

En stockage, l’appellation « donnĂ©es non structurĂ©es Â» correspond Ă  toutes les variĂ©tĂ©s de donnĂ©es, sauf celles enregistrĂ©es par une base SQL de type Oracle ou SAP. LeMagIT croit comprendre que l’Alletra MP X10000 supportera donc aussi des accès en mode fichier.

« Des Ă©volutions vont arriver au printemps. Mais sachez que nous pouvons stocker les vecteurs dans une base clĂ©-valeur, ce qui permet de retrouver immĂ©diatement sur quels blocs de quels SSD ils sont stockĂ©s Â», prĂ©cise enfin Jim O’Dorisio.

Une base clé-valeur revient en l’occurrence au fonctionnement de l’index utilisé dans les systèmes de fichiers. Pour accéder à des données en mode objet, les applications doivent envoyer des requêtes à un moteur de recherche, ce qui est beaucoup plus lent.

« Nous allons dĂ©velopper dans notre OS X10000 un accès au protocole GPU-Direct de Nvidia. Â»
Jim O’DorisioDirecteur général stockage, HPE

« Ă€ l’extrĂŞme, nous allons dĂ©velopper dans notre OS X10000 un accès au protocole GPU-Direct de Nvidia, c’est-Ă -dire la possibilitĂ© pour les GPU d’un serveur de venir lire directement les fichiers sur une baie de stockage sans mĂŞme devoir passer par leur processeur Â», ajoute l’expert de HPE.

« C’est-Ă -dire la possibilitĂ© pour les GPU d’un serveur de venir lire directement les fichiers sur une baie de stockage sans mĂŞme devoir passer par leur processeur. Â»
Jim O’DorisioDirecteur général stockage, HPE

Le scĂ©nario d’usage serait donc le suivant. Des applications – de sauvegarde et, pourquoi pas, de bases de donnĂ©es intensives en mode web â€“ enregistreraient des donnĂ©es sur l’Alletra MP X10000 en les Ă©tiquetant au quotidien de mĂ©tadonnĂ©es. Lorsqu’une entreprise dĂ©ciderait de nourrir une IA gĂ©nĂ©rative avec toutes ces informations, elle n’aurait qu’à cocher certaines mĂ©tadonnĂ©es pour automatiquement retirer du lot les informations trop sensibles.

Puis, la vectorisation des donnĂ©es se ferait directement sur l’Alletra MP. Et les serveurs applicatifs, ceux qui exĂ©cutent l’IA gĂ©nĂ©rative, y accĂ©deraient directement en mode fichier. Ou du moins en faisant une requĂŞte « clĂ©-valeur Â» simple, qui revient Ă  du mode fichier.

64 cœurs par contrôleur

Les Alletra MP sont des machines conçues pour fonctionner dans un cluster de 8 nĹ“uds maximum. La brique de base est un boĂ®tier 2U qui comporte 24 SSD NVMe en façade et intègre une carte mère dotĂ©e d’un processeur AMD Epyc de dernière gĂ©nĂ©ration, avec une quantitĂ© de cĹ“urs et de RAM qui varie selon l’usage.

Ă€ l’heure oĂą nous Ă©crivons ces lignes, HPE n’a pas encore adoptĂ© les derniers SSD de 61 To de capacitĂ©. Avec des SSD de 30 To, chaque boĂ®tier 2U offre 737 To de capacitĂ© brute, et un cluster entier atteint 5,9 Po bruts. Par le jeu des redondances, qui rĂ©duisent la capacitĂ© au bĂ©nĂ©fice de la sĂ©curitĂ©, conjuguĂ©es aux dispositifs de compression/dĂ©duplication, qui rĂ©augmentent virtuellement la capacitĂ©, l’espace de stockage utile d’un cluster atteindrait 8,78 Po.

La grande idĂ©e des Alletra MP est que les nĹ“uds peuvent ĂŞtre utilisĂ©s comme des contrĂ´leurs ou comme des tiroirs de disques, selon le scĂ©nario d’usage. Si les 8 nĹ“uds sont des contrĂ´leurs, alors les serveurs du rĂ©seau bĂ©nĂ©ficient d’un maximum d’accès parallèles. Mais plus il y a de nĹ“uds « tiroirs de disques Â», moins la solution coĂ»te cher.

Un tiroir de disque n’a qu’un fonctionnement basique en mode bloc. Son processeur Epyc n’a que 8 cĹ“urs et sa RAM n’est que de 64 Go. Un contrĂ´leur qui partage le stockage en mode bloc pour des serveurs SAP, Oracle, ou de virtualisation aura plutĂ´t 16 cĹ“urs et 256 Go de RAM. Un contrĂ´leur qui partage le stockage en mode fichiers – ce que HPE propose via le système de Vast Data â€“ aura plutĂ´t 32 cĹ“urs et 512 Go de RAM.

Les contrĂ´leurs Alletra MP X10000 sont les premiers Ă  intĂ©grer un AMD Epyc de 64 cĹ“urs avec 512 Go de RAM. Le dĂ©codage des requĂŞtes d’accès en mode objet, essentiellement des appels Ă  un moteur de recherche via une API S3, nĂ©cessite en effet bien plus de puissance de calcul que l’accès Ă  un fichier qui revient Ă  une simple adresse URL.

Par ailleurs, la redondance d’un cluster en mode objet, qui se fait via un algorithme d’Erasure coding, nécessite qu’au moins trois nœuds du cluster soient ici des contrôleurs.

Pour approfondir sur SAN et NAS