Stockage : Dell lance Lightning FS, ExaScale et AI Data Platform
Derrière l’annonce d’une baie de stockage spécifique à l’IA, ce sont en réalité trois nouveaux produits que Dell va mettre sur le marché : son fameux système de fichiers parallélisé, des matériels qui communiquent en 150 Go/s et un moteur de données accéléré par GPU.
Dell a profité de sa venue sur la conférence GTC 2026 de Nvidia pour présenter une nouvelle solution de stockage spécifiquement conçue pour l’IA : la Dell AI Data Platform. Celle-ci correspond en réalité à trois nouveautés en tiroir. L’AI Data Platform est un nouveau bundle commercial de différents produits, parmi lesquels une nouvelle baie de stockage appelée ExaScale, laquelle exécute trois systèmes de stockage, dont un nouveau système de fichiers parallélisé baptisé Lightning FS.
Lightning FS n’est ni plus ni moins que le projet mystérieux que Dell évoque depuis 2024 et à propos duquel des détails avaient filtré en 2025. On sait désormais ce qu’il en est : il s’agit en substance d’un système de partage de fichiers qui fonctionne à la manière de Lustre et de pNFS. Grâce à ces systèmes, chaque nœud d’une baie de stockage peut communiquer directement avec les machines du réseau.
La baie ExaScale est, de fait, un cluster rack rempli de nœuds de stockage qui sont pourvus de trois cartes réseau de Nvidia pour chacun communiquer à la vitesse de 150 Go/s avec le reste du réseau. L’ensemble pourra être partagé tantôt par Lightning FS pour que chaque nœud partage ses contenus à haute vitesse avec des GPU, tantôt par OneFS (le système des NAS élastiques PowerScale) pour que des applications traditionnelles sauvegardent leurs fichiers sur la baie, tantôt avec ObjectScale (le S3 de Dell) pour que des applications dites web-natives (en containers) puissent lire les données en mode objet.
Le scénario d’usage est que des équipes utilisent la baie au quotidien comme un stockage central pour tous leurs documents grâce à OneFS, que ces documents servent de temps en temps à réentraîner un modèle d’IA grâce à Lightning FS, et que les applications d’IA ou d’analytique en containers puissent venir puiser sur la baie des connaissances internes qui nourriront leur réflexion grâce à ObjectScale.
Enfin, l’ensemble AI Data Platform consiste à vendre la baie ExaScale avec des logiciels conçus pour s’interfacer avec des GPU Nvidia. Soit des GPU légers, de type carte RTX Pro éventuellement placée dans certains nœuds de stockage, pour convertir au fil de l’eau les fichiers en données vectorielles et indexer leurs contenus. Soit des GPU puissants, de type H200 ou mieux, placés dans des serveurs de calcul externes, pour les tâches d’inférence et d’entraînement.
« Ce que nous introduisons à cette conférence GTC 2026, c’est un stockage intelligent, basé sur des nœuds serveurs Dell PowerEdge très puissants et du stockage défini par logiciel qui peut gérer tous les types de partage et ingérer, nettoyer, reformater tous les types de données pour les apporter prêts à l’emploi à une IA », résume Ben McDavid, directeur des plateformes de données chez Dell (en photo en haut de cet article) et qui présentait la solution sur le stand du constructeur.
Lightning FS, un équivalent de Lustre par Dell
Dans ces systèmes que sont pNFS, Lustre et Lightning FS, une machine du réseau envoie classiquement une requête au serveur de partage pour lire ou écrire un fichier. Mais, au lieu de prendre en charge la commande comme c’est le cas en NFS ou en SMB, ce serveur de partage indique à la machine cliente l’adresse sur le réseau où elle doit elle-même lire ou écrire les blocs du fichier.
L’intérêt est d’éliminer le goulet d’étranglement au niveau du serveur de partage. À un instant T, les machines du réseau accèdent toutes à leurs fichiers via des liens réseau différents, idéalement vers des tiroirs de SSD et même des SSD différents.
Dans ces trois systèmes, la machine cliente doit disposer d’un pilote dédié qui lui indique comment lire ou écrire elle-même des blocs de fichiers sur un nœud de stockage distant. Avec pNFS, cet accès est plutôt rudimentaire : les blocs en question seront transmis soit en iSCSI, soit sous la forme d’un fichier en NFS (ce qui n’est pas rapide, mais davantage compatible avec n’importe quelle solution de stockage).
Avec Lustre et Ligthning FS, il s’agit d’un système propriétaire qui autorise la lecture ou l’écriture de blocs (on parle de chunks) depuis ou vers plusieurs nœuds de stockage. Cela repousse davantage l’aspect parallèle de la solution et promet en théorie de meilleures performances. De plus, Ligthning FS utilisant le protocole Spectrum X de Nvidia, la circulation des blocs peut se faire en rafale, sans gestion de perte des paquets, directement du SSD à la mémoire d’un GPU.
« Comparativement aux autres fournisseurs de stockage qui proposent des systèmes de fichiers parallélisés, nous sommes 1,8 à 6 fois plus rapides », lance Ben McDavid en citant Vast Data et Pure Storage (désormais rebaptisé Everpure). « Nous atteignons ces performances à la fois grâce à la capacité du pilote dans la machine cliente à gérer plusieurs chemins d’accès en même temps, mais aussi grâce à la prise en charge directe des cartes réseau. D’ailleurs, nous avons aussi fait des essais avec pNFS sur ces matériels, et nous étions déjà 30% plus rapides que nos concurrents », ajoute-t-il.
Par ailleurs, Lightning FS implémente ici le nouveau système CMX de Nvidia qui permet de stocker les KV-Caches d’une IA. C’est-à-dire les tokens générés dans la mémoire d’un GPU lors des interactions avec un LLM. Nvidia recommande pour ce faire sa propre baie de stockage BlueField-4 STX. Mais comme CMX se contente d’une carte DPU BlueField-4 dans la baie de stockage pour fonctionner, les fournisseurs de stockage semblent dire que cette approche plus modeste devrait suffire pour des clusters de GPU de taille moyenne.
Trois profils de stockage interchangeables
La baie ExaScale ayant été préannoncée lors de la GTC 2026, on ne connaît pas encore les caractéristiques techniques exactes de ces nœuds de stockage ; elles seront manifestement dévoilées lors de la conférence Dell Technologies Forum qui se tiendra mi-mai, pour une commercialisation durant l’été. Toujours est-il que Dell communique sur une bande passante totale de 6 To/s pour un rack de 42U, suggérant que chaque nœud aura une taille de 1U (car 6000 / 150 = 40), soit avec sans doute 12 SSD embarqués.
Il est à noter que la vitesse de 150 Go/s par nœud repose sur des cartes réseau 400 Gbit/s dotées de puces ConnectX-8 de Nvidia. Celui-ci a par ailleurs annoncé l’arrivée de puces ConnectX-9 capables de faire grimper la bande passante à 800 Gbit/s. Pour autant, ces nouvelles puces seront commercialisées après le lancement de la baie ExaScale.
La baie supporte les trois systèmes de partage Lightning FS, PowerScale et ObjectScale et il sera possible de basculer chaque nœud de l’un à l’autre depuis la console d’administration.
Plus exactement, chaque nœud ne peut partager ses données que dans un seul mode à la fois. Lorsque l’administrateur indique dans la console de gestion que des documents de travail doivent être utilisés pour entraîner une IA, le système d’exploitation copie ces fichiers depuis des nœuds PowerScale vers des nœuds Ligthning FS. Mais pour peu qu’il y ait suffisamment d’espace disponible dans la baie, il est tout à fait possible de modifier dynamiquement le rôle de chaque nœud selon le besoin à un moment donné.
« Lightning FS est véritablement conçu pour nourrir à toute vitesse des GPU qui travaillent en parallèle. Mais il pose des contraintes de placement des fichiers, de sauvegardes. Quand vous souhaitez juste utiliser un NAS pour centraliser les documents de travail d’une équipe, il est beaucoup plus simple et bien plus sécurisé de fonctionner avec des nœuds qui fonctionnent sous OneFS », précise Ben McDavid.
Ces systèmes de partage fonctionnant en containers, il devrait rapidement devenir possible de même subdiviser un seul nœud en différents systèmes de partage. Pour autant, des contraintes de types de SSD utilisés peuvent se poser.
Des moteurs de données éventuellement accélérés par GPU
Le bundle Ai Data Platform ajoute à tout ce qui précède plusieurs logiciels. Il y a tout d’abord quatre « moteurs de données » : une base de données vectorielle, un moteur de recherche sémantique et lexical, un moteur de diffusion et un moteur d’analytique. Ce dernier, basé sur le logiciel Trino, a pour fonction de rentre interrogeable en SQL des données dont le format n’a rien à voir avec SQL.
« Il s’agit de la partie intelligente de la baie. Vous pouvez attribuer à certains nœuds des rôles applicatifs pour qu’ils exécutent ces moteurs. Par exemple, si vous voulez nettoyer toutes vos données des informations sensibles qu’elles contiennent, vous pouvez le faire au sein de la baie, sans passer par des serveurs externes », indique Ben McDavid.
Un autre point sur lequel insiste le responsable de Dell est que l’intégration au plus bas niveau de ces logiciels permet des optimisations inédites.
« Le problème que vous rencontrez d’ordinaire quand vous convertissez tous les jours vos données en vecteurs est que vous devez recalculer la numérotation de tous les vecteurs existants pour placer les nouveaux au bon endroit, ce qui consomme énormément de ressources de calcul. Nous contournons ce problème avec MetaDataIQ, le moteur intégré à OneFS qui effectue un indexage dynamique des documents et dont nous nous servons pour seulement incrémenter la base vectorielle », argumente notre interlocuteur.
Tous ces logiciels sont potentiellement compilés avec des bibliothèques Cuda de Nvidia pour qu’ils tirent parti de l’accélération de GPU Nvidia a priori embarqués quelque part dans la baie ExaScale. Dell cite l’ingestion de données avec la bibliothèque de lecture de fichiers en chunks cuDF et la recherche sémantique avec la bibliothèque de données vectorielles cuVS. Selon Dell, utiliser des GPU, plutôt que les processeurs des nœuds de stockage, permettrait d’accélérer les traitements de facteurs compris entre 3 et 12. Mais ce n’est pas obligatoire. L’ExaScale peut aussi exécuter les mêmes fonctions sans GPU.
Ces quatre moteurs sont pilotables depuis une interface d’orchestration censée servir à définir des processus. Cette interface dispose elle-même de quatre « moteurs d’orchestration ». Ce sont, d’un point de vue fonctionnel, des tuyaux qui servent à relier un chatbot à de la récupération d’information locale (RAG), à l’exécution d’applications tierces (agents d’IA) ou encore à des modèles de prompts et d’agents pour des besoins métiers (blueprints). Chacune de ces fonctions est en l’occurrence un applicatif en container issu du catalogue de modules NIM de Nvidia.
« La baie ExaScale sera aussi vendue en dehors de ce bundle. Au-delà de l’IA, elle reste une baie de stockage excessivement flexible qui vous permet de basculer simplement entre les modes de partage en NAS et en S3. Nous avons typiquement des clients qui travaillent depuis toujours avec des fichiers et qui graduellement basculent vers de l’objet. Avec cette solution, ils n’ont plus besoin de changer de matériel », conclut Ben McDavid.
