Dell World 2026 : l’AI Factory devient une infrastructure pour l’inférence

La famille de serveurs estampillée pour l’entraînement de modèles d’IA sur site il y a deux ans devient une architecture complète pour utiliser facilement des IA préentraînées loin des coûts imprévisibles et de la souveraineté discutable du cloud.

Lors de sa conférence Dell Technologies World 2026, qui se tient cette semaine à Las Vegas, le constructeur Dell a donné un coup de neuf à son offre commerciale Dell AI Factory en y ajoutant tout le nécessaire pour que les entreprises puissent déployer en un tournemain leurs projets d’inférence.

La couche logicielle, qui ne servait jusque-là qu’à administrer les fonctions basses des machines, s’enrichit d’une suite Data Orchestration Engine qui transforme tous les documents produits par les métiers en données directement utilisables par une IA.

Et la couche infrastructure se pare des nouveaux systèmes de stockage Lightning FS et ExaScale qui font désormais fonctionner les baies de disques de la manière la plus optimale possible pour alimenter en données les conversations entre une IA et ses utilisateurs, qu’ils soient humains ou qu’il s’agisse d’agents.

« L’inférence est ce qui fait tourner le business. Cela représente à présent environ les deux tiers de l’utilisation de l’IA. Ce n’est plus de l’expérimentation, c’est de la mise en production. La question n’est plus faut-il le faire, mais en combien de temps vais-je avoir une solution en production ? », s’est réjoui sur scène Jeff Clarke, le numéro deux de Dell (en photo en haut de cet article).

Lancée en 2024, la plateforme Dell AI Factory était initialement censée prouver qu’il était possible d’entraîner des IA sur site aussi bien qu’en cloud. Sauf que le besoin ne concernait qu’une poignée de grandes entreprises, celles suffisamment ambitieuses pour façonner leur propre LLM à l’abri des regards indiscrets.

Deux ans plus tard, le modèle économique de l’IA a basculé : le tout venant des entreprises veut désormais faire travailler des LLM déjà entraînés sur ses propres données. Qui plus est, avec cette fois-ci un véritable engouement pour des installations privées sur site. Car les coûts ne pourront qu’y être mieux maîtrisés qu’en cloud public. Et parce que la souveraineté des données y sera à l’abri des nouvelles menaces d’ingérence que la géopolitique actuelle fait redouter.

Dans ce contexte, Dell a l’enjeu de ne pas fondre dans la masse des constructeurs qui se précipitent pour fournir des serveurs d’IA installables sur site.

Data Orchestration Engine, un outil pour simplifier la conversion des données à l’IA

Data Orchestration Engine est un logiciel que Dell a récupéré du rachat de Dataloop en toute fin d’année dernière. C’est un moteur d’orchestration qui convertit les bases de données et les fichiers – qu’il s’agisse de documents bureautiques comme d’images, de vidéos ou de bandes-son – en vecteurs. Il réalise les embeddings et les chunks pour 200 scénarios prédéfinis, lesquels sont déduits depuis les outils que l’on choisit dans une marketplace. Cette marketplace comprend des modules fonctionnels NIM de Nvidia, des pipelines de données, des pipelines d’agents, pour le RAG, comme pour le fine-tuning de modèles d’IA.

« Vous pouvez passer d’un Blueprint Nvidia à un usage en production sans écrire une seule ligne de code », s’enthousiasme Arthur Lewis, le patron de la division ISG qui, chez Dell, est l’unité responsable des équipements informatiques pour datacenters. Invité par Jeff Clarke à venir faire la démonstration de Data Orchestration Engine, il indique que l’indexation des vecteurs serait 12 fois plus rapide quand on utilise des modules NIMs de Nvidia (sur des machines équipées de GPU Nvidia) plutôt que des modules Open source.

Data Orchestration Engine alimente sa base vectorielle en allant chercher les documents créés sur la baie de stockage. Idéalement, celle-ci est une baie NAS Dell PowerScale (le nouveau nom des baies Isilon, fonctionnant sous OneFS) ou objet ObjectScale, sachant que les deux systèmes fonctionnent sur les mêmes matériels.

Data Orchestration Engine est aussi compatible avec n’importe quel autre stockage S3 ou NAS en NFS. Mais l’intérêt d’utiliser un NAS PowerScale est que le logiciel reconnaît et exploite les métadonnées que OneFS accole à chaque nouveau fichier, lesquelles nourrissent plus utilement la conversion en vecteurs sémantiques.

L’opération n’est pas entièrement automatique. Un navigateur de données doit être utilisé par des ingénieurs des données pour filtrer ce qui sera converti en vecteurs, pour attribuer des droits.

Une représentation visuelle des données converties en vecteurs – un espace rempli de boules colorées que l’on peut faire tourner en 3D - permet de vérifier que la base résultante n’ait pas trop d’informations superposées à l’endroit d’un groupe de vecteurs et ne soit pas trop vide à d’autres endroits. Si tel est néanmoins le cas, des outils permettent à un ingénieur de données de refaire la numérotation des vecteurs pour obtenir une base plus homogène, ce qui permettra à une IA de fouiller plus rapidement et plus précisément dans les données.

Ensuite, la solution s’occuper de tout découper en chunks, en retravaillant au passage certains contenus : les sons sont retranscrits en texte, les images et les vidéos sont décrites avec du texte, les informations sensibles sont anonymisées.

Pour finir, l’ingénieur de données peut évaluer les différentes réponses que donneront différents modèles avec différents paramètres à partir d’exemples types. Il lui suffit de sélectionner le type de réponse le plus adapté au métier de tels ou tels utilisateurs, pour que Data Orchestration Engine crée un pipeline avec le bon LLM et les bons paramètres.

L’inférence accélérée par le stockage

Après la préparation des données vient l’inférence. Dell laisse ses partenaires éditeurs déployer leurs outils de chatbots, leurs modèles, leurs agents : Nvidia avec sa suite AI Enterprise, Red Hat avec sa solution Red Hat AI, Nutanix avec Agentic AI, ou encore n’importe quelle installation maison à base d’outils Open source. En revanche, le constructeur travaille à optimiser leur fonctionnement.

« À ce stade, le plus important est que votre modèle d’IA puisse accéder le plus rapidement possible aux données qui ont été préparées pour l’IA. Et c’est exactement la raison d’être de notre nouveau système de stockage, Lightning FS », explique Arthur Lewis, en continuant sa démonstration.

Lightning FS est un système de fichier parallélisé, dont le fonctionnement rappelle pNFS ou Lustre : les serveurs demandent un fichier à la baie de stockage, un nœud qui ne contient que l’index des contenus répond où se trouve, dans le cluster, le fichier en question et le serveur de calcul accède directement à ce nœud pour lire (ou écrire) le contenu du fichier. D’ordinaire, toutes les opérations de lecture/écriture transitent par le nœud qui partage l’index, lequel devient un véritable goulet d’étranglement quand plusieurs serveurs ont besoin de lire ou écrire des données en même temps.

Grâce à cela, chaque nœud de stockage aurait la capacité, d’envoyer ou de recevoir 150 Go de données utiles par seconde. Ce serait, selon Arthur Lewis, 20 fois plus qu’un NAS normal (utilisé dans des conditions similaires), même équipé de SSD excessivement rapides. Cette vitesse est aussi atteinte grâce à la présence dans les nœuds de stockage de trois cartes réseau compatibles RDMA, a priori en 400 Gbit/s dans un premier temps. Soit de l’Ethernet RoCE qui envoie ses paquets en rafale sans en perdre aucun, soit du protocole Spectrum-X propriétaire à Nvidia et dans lequel le RoCE sait, en plus, envoyer les paquets directement dans la mémoire du GPU, en les compressant.

Précisons que les nœuds qui contiennent les données sont toujours des serveurs de stockage qui fonctionnent sous OneFS (PowerScale), soit sous ObjectScale. Les deux implémentent les pilotes RDMA et Dell jure que, grâce à cela, le mode objet d’ObjecScale serait pratiquement aussi rapide que le mode fichier de OneFS. Toutefois, des documentations du constructeur évoquent plutôt une vitesse de 40 Go/s avec ObjectScale, sans doute parce qu’il ne peut utiliser qu’une carte réseau par transfert et sans compression Nvidia.

Il n’est pas nécessaire d’acheter deux baies séparées, l’une pour stocker les documents de production (PowerScale ou ObjectScale) et l’autre pour stocker leur version vectorisée (un cluster de nœuds PowerScale/ObjectScale gérés par Lignhtning FS). Dell a lancé un système d’orchestration, baptisé ExaScale, capable de reconfigurer chaque nœud en OneFS, ObjectScale, Lignning FS et même en PowerFlex (le système de stockage en mode bloc de Dell). Si cela permet de répartir les systèmes au fil des besoins, il faut néanmoins noter que ces systèmes ne partagent pas leurs données. À chaque changement de configuration, le nœud repart sur des SSD vierges.

Pour approfondir sur x86