Infrastructure IA : l'ICMS de Nvidia chamboule les baies de disques
Dans la prochaine génération de ses accélérateurs, Nvidia a mis au point un système censé servir à recharger plus vite les contextes des précédentes sessions d’IA générative. Mais celui-ci cogne contre les optimisations déjà imaginées par les acteurs du stockage.
La prochaine génération de puces que Nvidia lancera d’ici à la fin de l’année a une caractéristique qui interroge le marché et plus particulièrement ceux qui ont déjà investi dans des solutions de stockage pour leurs projets d’IA : le nouveau système de cache ICMS (Inference Context Memory Storage).
Celui-ci consiste à sauvegarder l’historique d’une conversation avec un chatbot, non plus comme des enregistrements formatés, qu’il faut classiquement redéployer du stockage vers la RAM lors de la session suivante, mais sous la forme brute de ce qui est contenu dans la mémoire du GPU. Mieux, ICMS est capable de considérer les cellules d’un SSD qui stocke ce contenu comme une extension virtuelle de la mémoire du GPU pour, in fine, ne plus charger dans la mémoire réelle du GPU que des bits utiles.
En substance, le rechargement d’un historique de conversation s’apparente dès lors à de la copie d’information d’une zone de RAM à l’autre. Il n’y a plus aucun en-tête de protocole de stockage à transférer sur le réseau ni à décoder. Selon Jensen Huang, le PDG de Nvidia, ce dispositif devrait contribuer à réduire le coût des IA chez les hébergeurs qui facturent leur usage selon la quantité de tokens manipulés.
Problème, ce nouveau dispositif ne correspond en rien aux fonctions des actuelles solutions de stockage qui ont été conçues pour accompagner les clusters d’IA générative. D’ailleurs, Nvidia prévient que, pour le supporter, il faudra nécessairement que la baie de stockage ait des SSD NVMe, des cartes réseau Nvidia BlueField et qu’il y ait des switches Nvidia Spectrum-X pour la relier aux serveurs de calcul. Ces détails, d’ordinaire recommandés pour atteindre des bonnes performances lors de l’entraînement d’une IA, n’étaient jusqu’ici pas obligatoires pour les tâches d’inférence. Or, le rechargement de contexte entre deux sessions est bien une tâche d’inférence.
« ICMS diffère considérablement des architectures de stockage traditionnelles. Il invalide les hypothèses établies en ce qui concerne la performance et la latence d’une IA générative, surtout à grande échelle. Il va sans doute falloir se demander s’il devient nécessaire de disposer de très grands ensembles de données en mémoire, de recalculer fréquemment les données, de prendre en compte la vitesse des mémoires NAND qui composent les SSD, etc. », observe l’analyste Simon Robinson, du cabinet Omdia.
« Et, à l’évidence, les acheteurs de solutions de stockage traditionnelles pour datacenters ne sont pas la cible ici. Ce sont plutôt ceux qui cherchent à proposer des systèmes d’inférence à très grande échelle », ajoute-t-il, en faisant référence aux hébergeurs de services d’IA.
Les fournisseurs de stockage avaient imaginé autre chose
Il pointe d’ailleurs que certains fournisseurs de solutions de stockage pour la partie entraînement, notamment Weka avec son dispositif Augmented Memory Grid, avaient déjà planché sur des approches similaires. « Ils vont sans doute devoir choisir entre défendre leur approche ou chercher à la rendre complémentaire d’ICMS, d’autant que ce dernier sera directement intégré aux cartes réseau BlueField-4 [en photo en haut de cet article, N.D.R.] qui connecteront leur baie aux GPU de la génération Rubin. »
Parmi les autres fournisseurs de solutions de stockage, DDN, Dell, HPE (avec ou sans Vast Data, Pure Storage, Hitachi Vantara, IBM, Cloudian et même Nutanix ont dit qu’ils adapteraient d’une manière ou d’une autre leurs produits à ICMS. NetApp, en revanche, ne l’a pas fait.
Et pour cause : si les autres partent plus ou moins d’une feuille blanche, NetApp a déjà développé tout un système, côté baie de stockage, pour optimiser le chargement des données vers les serveurs de calcul. Dans la baie AFX présentée lors de son dernier événement NetApp Insight annuel, on trouve ainsi des algorithmes qui se chargent eux-mêmes de déterminer sur quels SSD stocker les données selon les GPU et même une couche d’exécution AIDE capable de lancer ses propres IA pour trouver comment formater les données.
Utiliser ICMS avec des baies NetApp rendrait partiellement inutile le coûteux module AFX. D’un autre côté, ce module AFX optimise également l’accès aux données pour des GPU AMD ou autres, c’est-à-dire qu’il favorise l’emploi de solutions concurrentes à celles de Nvidia.
« Il faut aussi voir que NetApp ne propose dans sa solution que du stockage aux protocoles fichier et objet. Or, ICMS est plutôt conçu pour des accès en mode bloc. Ménager une partie de sa baie pour qu’elle prenne en compte un mode de stockage différent n’est pas dans les habitudes de NetApp », estime Rob Strechay, analyste pour le cabinet TheCube Research. Selon lui, ICMS contrarie essentiellement les plans que NetApp avait imaginés pour affirmer sa différence parmi les solutions de stockage conçues pour l’IA.
Et aussi : ICMS a besoin de NAND en situation de pénurie
Un autre point est donc qu’ICMS impose l’utilisation de SSD NVMe, c’est-à-dire d’unités de stockage avec des puces de NAND, alors que l’inférence traditionnelle, moyennant un cache, peut se contenter de disques durs. Le système de Nvidia impose même une grande quantité de capacité NAND pour stocker ce qui n’est finalement que des historiques : 16 To par GPU Rubin. Problème, ces puces NAND sont justement en pénurie pour les fabricants d’équipements en datacenter, l’essentiel de la production étant préempté par les hyperscalers.
Selon les dernières informations auxquelles LeMagIT a pu avoir accès, les fabricants de baies de stockage auraient d’ores et déjà augmenté leurs tarifs de 25 à 30%, reflétant le prix des composants qu’ils sont parvenus à arracher à Micron, SK Hynix et autres Samsung Electronics lors d’enchères endiablées. Selon les projections actuelles, cette situation pourrait durer jusqu’en 2030.
« Les conceptions récentes de solutions de stockage reposaient sur l'hypothèse de longue date que la capacité était bon marché et largement disponible. Ce n’est plus vrai. Cela signifie que, cette année, des fournisseurs de stockage ne vont peut-être plus pouvoir innover », dit Simon Robinson, en se demandant si tous les fabricants qui ont annoncé adopter ICMS pourront véritablement le faire.
