GTC 2026 : Nvidia impose un nouveau type de stockage

Le fabricant a dévoilé lors de son salon annuel le concept inédit d’une baie de SSD qui résout le problème du rechargement à toute vitesse d’une conversation avec une IA. Les fournisseurs applaudissent l’idée, mais ne se bousculent pas pour revendre la machine.

Après avoir présenté des serveurs clés en main, Nvidia a continué de secouer les fabricants habituels d’infrastructure en dévoilant, lors de son évènement GTC 2026 qui se tient cette semaine à San José, un nouveau type de baie de stockage. Appelée « BlueField-4 STX », celle-ci serait la seule à savoir correctement stocker les données de travail qu’une IA manipule dans la mémoire d’un GPU.

Ne pas acheter cette baie condamnerait toute IA à ralentir drastiquement à chaque fois qu’elle devra recharger l’historique d’une conversation avec un utilisateur, ou avec un agent programmé pour faire des aller-retour dans un LLM.

Comme c’est déjà le cas pour les serveurs DGX, Nvidia invite les fabricants de stockage à laisser tomber les approches alternatives auxquelles ils avaient pensé et à plutôt lui acheter des cartes mères prêtes à l’emploi pour les revendre dans un boîtier avec leur logo.

Lors d’une rencontre avec la presse, Ian Buck, le patron des solutions pour hyperscalers et grands comptes chez Nvidia, a tenu à nuancer ce résumé : « Cette solution n’est qu’un socle. Tous les vendeurs de stockage peuvent bien évidemment y ajouter leur propriété intellectuelle. Nous avons un kit de développement, DOCA, qui permet d’implémenter des fonctions sur les puces BlueField-4 qui composent cette machine. Nous venons de l’étendre en une version dite DOCA Memo, spécifiquement conçue pour les fabricants de solutions de stockage. »

« Ce que nous présentons aujourd’hui est une architecture de référence. Ils savent désormais à quoi elle va ressembler et ils peuvent dès à présent travailler à en faire une solution qui proposera leurs fonctions. Par exemple, une baie de stockage qui sera aussi performante pour les bases de données SQL », avance-t-il.

Des acteurs du stockage qui adhèrent, mais qui ne s’engagent pas encore

Parmi les fabricants de baies de stockage présents sur le salon, LeMagIT a pu en rencontrer deux qui affichent leur soutien à Nvidia dans sa stratégie de baie BlueField-4 STX : Dell et DDN. Pour l’un comme pour l’autre, ce produit est trop spécialisé pour faire de l’ombre à leurs solutions.

« Que les acteurs du stockage […] adoptent [l’existence d’une baie concurrente] comme une nouvelle architecture pour leurs propres solutions […], ce n’est pas gagné. »
Roy IllsleyAnalyste, Omdia

Plus précisément, DDN et Dell ne se prononcent pas sur l’éventuelle fourniture d’une version avec leur logo apposé dessus. En revanche, tous deux se sont empressés de prendre en compte la présence d’une baie BlueField-4 STX dans le circuit des données, ne serait-ce qu’en l’intégrant dans leur console d’administration. Montrer qu’ils sont compatibles avec les technologies de pointe de Nvidia resterait pour eux le meilleur moyen de continuer à vendre des baies de stockage dans le giron des solutions Nvidia. Et qu’importe si ces solutions sont aussi du stockage.

« Que les acteurs du stockage accueillent volontiers l’existence d’une baie concurrente, c’est donc un point qui semble résolu. Qu’ils l’adoptent comme une nouvelle architecture pour leurs propres solutions, en revanche, ce n’est pas gagné. Ils ne le feront que si Nvidia parvient à leur démontrer que c’est simple à faire. Or, pour l’instant, je n’ai rien vu qui permettrait de dire que ce sera le cas », commente l’analyste Roy Illsley, spécialiste des infrastructures datacenter chez le cabinet d’études Omdia.

Il précise avoir aussi rencontré Lenovo, qui n’a pas plus parlé que les autres de vendre des baies STX avec son logo.

Sur le plan matériel, Nvidia jure avoir mis dans la baie STX tout ce qu’il faut pour qu’elle serve à autre chose qu’à stocker la fenêtre de contexte des conversations avec une IA.

Le BlueField est une puce DPU qui comprend d’ordinaire un processeur ARM et un circuit contrôleur de réseau ConnectX. Au début de cette année, Nvidia a dévoilé, avec les autres puces de sa nouvelle génération, le BlueField-4. Il contient un processeur Grace de 64 cœurs, soit quasiment la même chose que le processeur Grace 72 cœurs qui équipe les cartes mères de ses serveurs de calcul DGX Hopper et Blackwell, ainsi qu’un circuit ConnectX-9, qui prend en charge désormais le protocole CXL (pour transférer les commandes du bus PCIe sur le réseau).

Concernant le Bluefield-4 « STX » qui équipe cette baie, c’est encore autre chose. Il ne s’agit plus d’une seule puce, mais d’une carte mère comprenant un processeur Vera, le nouveau successeur du Grace, et deux puces réseau ConnectX-9. En l’occurrence, la baie de stockage STX contient deux de ces cartes, soit deux Vera et quatre ConnectX-9. Chaque carte pilote 12 SSD NVME QLC (au format E3.S) extractibles en façade avant, et quatre connecteurs 400 Gbit/s pour communiquer avec le reste du réseau.

Soit un total de 24 SSD et 8 ports 400 Gbit/s dans une machine qui fait 2U de hauteur. Elle peut être refroidie par air ou par liquide, selon le système choisi dans le reste de l’étagère rack. Et elle est nativement conçue pour fonctionner en cluster.

L’épineux problème de sauvegarder le contexte d’un chatbot

La baie BlueField-4 STX est l’implémentation matérielle dont un nouveau processus « CMX » (acronyme imparfait de Context Memory storage) a besoin pour fonctionner. Ce processus avait été initialement annoncé en début d’année sous le nom d’ICMS (Inference Context Memory Storage), en même temps que toutes les puces accélératrices présentées au public cette semaine.

Le processus CMX consiste à faire un snapshot sur SSD de la fenêtre de contexte d’une conversation avec un chatbot. Cela afin de pouvoir recharger très rapidement cette fenêtre de contexte dans la mémoire d’un GPU, la prochaine fois que le même utilisateur se connectera au même chatbot pour poursuivre la conversation.

Il faut entrer dans les détails techniques afin de comprendre pourquoi cela est beaucoup moins compliqué qu’il n’y paraît. D’ordinaire, lorsqu’il est possible de sauvegarder la conversation avec un chatbot pour la reprendre plus tard, c’est tout le texte affiché à l’écran, voire les documents épinglés au fil des échanges qui sont stockés sur disque. Cette approche n’est pas optimale, car, derrière l’écran, dans la mémoire du GPU, l’IA travaille plutôt avec une version vectorisée de ce contenu, c’est-à-dire transformée en tokens.

Cette transformation en tokens coûte du temps de calcul. Elle en coûte déjà lorsque l’utilisateur tape son prompt. Et personne ne veut qu’elle en coûte encore, sur des GPU qui valent une fortune, à chaque fois que cet utilisateur ou un agent d’IA se reconnecte.

« Dans certains scénarios, nous avons constaté qu’un GPU peut passer jusqu’à 60 % de son temps à recalculer des tokens qu’il avait déjà calculés. Il fallait donc nécessairement trouver une autre méthode », illustre Victor Ghadban, architecte infrastructure chez DDN, l’un des fabricants historiques de baies de stockage ultrarapides pour les clusters de supercalcul et d’IA.

La bonne méthode est donc de plutôt sauvegarder sur disques les vecteurs déjà calculés dans la mémoire du GPU. Ces vecteurs sont appelés le « KV-Cache ». Le K (« Key », ou clé), correspond au numéro du token, le V (« Value ») correspond à sa valeur et l’on parle de « cache », car il s’agit d’une image brute de la mémoire. Cela n’a rien à voir avec les dictionnaires en Python ; quand on parle de paires Key-Value dans ce contexte, on fait référence à des données de taille variable, par opposition aux « blocs de données » utilisés d’ordinaire dans le stockage et qui ont tous la même taille.

Nvidia n’a pas inventé le concept de KV-Cache. En vérité, la plupart des fournisseurs de stockage s’étaient emparés du sujet et avaient déjà réfléchi à une solution… propriétaire.

« Les fournisseurs de stockage reconnaissent eux-mêmes que ces approches propriétaires sont une faiblesse, car elles nuisent à l’interopérabilité des solutions. C’est pour cela qu’ils montrent autant d’enthousiasme quand Nvidia dit qu’il va s’occuper lui-même de résoudre le problème », glisse Roy Illsley.

Le problème suivant est que, quelle que soit la manière employée, cette sauvegarde et sa restauration après coup prennent du temps, parce qu’elles fonctionnent à la vitesse du système de stockage. Vitesse qui va varier considérablement d’un fournisseur à l’autre. Et ce n’est pas qu’à cause des cartes réseau que ce fournisseur a choisi d’installer dans sa baie, c’est aussi à cause du fonctionnement même de son système de stockage. Certains sauvegardaient le KV-Cache comme un fichier (Hammerspace, Vast, Weka), d’autres comme des blocs, d’autre comme un objet (DDN avec ses baies Infinia), etc.

En théorie, la méthode la plus rapide est de commencer par faire transiter ce KV-Cache entre le GPU et la baie de stockage non pas comme un paquet réseau ordinaire, mais comme une communication CXL. C’est-à-dire en considérant que le câble Ethernet utilisé est une sorte de rallonge filaire du bus PCIe. Dans ce contexte, les cellules de NAND du SSD branché à l’autre bout de la communication sont considérées comme une extension mémoire du GPU. On ne parle même plus de protocole de stockage fichier, objet ou bloc qui coûte du temps à décoder.

Or, si le protocole CXL 3.1, pour faire cela, a bien été normalisé, les cartes réseau qui l’implémentent correctement n’existent pas encore. Nvidia a aussi résolu ce problème avec sa nouvelle génération de puces réseau ConnectX-9 conçues pour le protocole CXL 3.1.

L’avantage des baies BlueField-4 selon Nvidia

« L’optimisation fonctionne parce que CMX comprend aussi le système de répartition de charge qui route les requêtes de milliers d’utilisateurs par seconde en prédisant la charge sur chaque GPU. »
Ian BuckVP/general manager, hyperscale and HPC computing business, NVIDIA

Selon un ingénieur de Nvidia rencontré sur le stand où était présentée la baie BlueField-4 STX, cette approche permettrait in fine à un chatbot de recharger une fenêtre de contexte cinq fois plus rapidement qu’avec la méthode ordinaire de sauvegarde/restauration du texte à l’écran sur une baie de stockage du commerce. « Cette optimisation n’est possible que parce que toute la pile est optimisée, la bibliothèque CMX qui capture le KV-Cache, le réseau… pas juste la baie de stockage », argumente-t-il.

Ian Buck va encore plus loin : « l’optimisation fonctionne parce que CMX comprend aussi le système de répartition de charge qui route les requêtes de milliers d’utilisateurs par seconde en prédisant la charge sur chaque GPU. »

Et d’expliquer : « chez un hyperscaler, tous les GPU sont sollicités en même temps pour faire de l’inférence et il faut réorienter, à chaque prompt, chaque utilisateur vers le GPU qui a de la puissance de calcul disponible. Cela signifie qu’entre deux prompts, vous n’allez pas nécessairement faire travailler le même GPU. Notre baie BlueField-4 STX et le système CMX sont la clé pour que, quel que soit le GPU sur lequel l’utilisateur se retrouve, il ait en un clin d’œil tout l’historique de sa conversation chargé en mémoire. »

Les fournisseurs historiques relativisent cet avantage

En ce qui les concerne, les fournisseurs de stockage historiques applaudissent le système standardisé CMX, plus que l’existence de la baie BlueField-4 STX. Chez Dell comme chez DDN, le mot d’ordre est de dire qu’à partir du moment où le système CMX fonctionnera aussi sur les prochaines cartes réseau BlueField-4, alors il suffira que leurs baies de stockage soient pourvues de ces cartes pour stocker efficacement les KV-Caches.

« La clé est que vous devez présenter derrière un système de stockage suffisamment rapide pour supporter la vitesse nécessaire au fonctionnement de CMX », dit un expert sur le stand de Dell où est enfin montré le stockage ultrarapide Lightning. Il insiste pour présenter le stockage des KV-Cache comme une option. Le métier des fournisseurs historiques est d’abord de vendre des baies ultrarapides pour stocker les bases de connaissance des IA. À savoir les LLM eux-mêmes, ainsi que les documents tiers à lire lors des prompts (activité de RAG) ou lors du réentraînement d’une IA (activité de fine-tuning). Ce que la baie BlueField-4 STX ne fait pas.

DDN, qui avait déjà présenté l’année dernière une approche optimisée pour stocker les KV-Cache sur ses baies Infinia (mode objet), considère que son approche reste complémentaire d’une baie BlueField-4 STX. « Chez les hyperscalers par exemple, les KV-cache seront si nombreux qu’il faudra bien en délester une partie sur une baie externe. Or, l’optimisation que nous avons déjà développée avec Nvidia et qui passe par la présence de cartes BlueField-3 dans nos baies montre que nous étions déjà suffisamment rapides en communiquant directement avec les GPU », dit Victor Ghadban. L’existence d’un besoin de « délestage » sur des baies moins chères semble justifier, chez DDN, l’absence d’un portage de ses systèmes EXAscaler ou Infinia sur la baie Bluefield STX-4.

Pour approfondir sur SAN et NAS