Nutanix lance son « meilleur Kubernetes pour exécuter les IA »

Nutanix Agentic AI est non seulement un système livré clés en main pour utiliser des agents et des LLM, mais c'est aussi une plateforme qui orchestre ces tâches avec la même élasticité que des applications en cloud.

Juste avant sa conférence annuelle qui aura lieu la semaine prochaine à Chicago, Nutanix est venu sur la conférence KubeCON qui a eu lieu la semaine dernière à Amsterdam pour présenter sa nouvelle solution Nutanix Agentic AI. Il s’agit d’une plateforme conçue pour exécuter des IA génératives sur site, qui succède à l’ancien Nutanix GPT-in-a-Box et qui fonctionne désormais entièrement par-dessus NKP, sa distribution Kubernetes.

« Notamment grâce à NKP, Nutanix Agentic AI est conçu pour supporter des charges qui changent tout le temps avec la même élasticité que les applications dites cloud-natives. », argumente Dan Ciruli, aujourd’hui patron de la division Cloud-Native chez Nutanix (en photo en haut de cet article) et anciennement directeur des produits chez D2IQ, l’entreprise qui avait créé NKP avant que Nutanix le rachète.

Gestion des KV-Caches, virtualisation des GPU et le plein d’outils

Parmi les fonctions d’élasticité notable, il y a notamment le fait que le répartiteur de charge tienne compte des KV-Caches, ce concept technique propre à l’inférence. « Il s’agit de faire en sorte que lorsqu’une nouvelle requête arrive, elle soit dirigée vers l’instance qui a déjà le contexte initial dans sa mémoire, ceci afin d’éviter de le recharger à chaque fois, ce qui fait chuter drastiquement les performances sur d’autres plateformes d’inférence », ajoute notre interlocuteur.

« C’est une solution qui peut s’installer soit directement sur un serveur, soit en machine virtuelle par-dessus notre hyperviseur AHV, selon le choix de l’utilisateur. Et, dans les deux cas, elle offre exactement les mêmes performances, exactement la même virtualisation des GPU présents dans la machine hôte. C’est unique sur le marché », continue-t-il.

Au-delà des avantages de son moteur NKP, Nutanix Agentic AI est aussi livré avec une sélection d’outils de la CNCF qui comprend une trentaine d’applications d’IA, la base de données vectorielles pgvector, le serveur d’IA KServe, ou encore la plateforme de fine-tuning Kubeflow. Tout est également connectable à la plateforme AI Enterprise de Nvidia, notamment ses LLM et ses outils de RAG prêts à l’emploi, si le serveur hôte est équipé de GPU Nvidia.

« Bref, Nutanix Agentic AI est pour ainsi dire la partie logicielle qui manque à tous les matériels dits AI Factory que Dell, Cisco et les autres ont présentés durant la GTC 2026 », assène Dan Ciruli.

Pas de problème de vitesse au niveau du stockage

Au sujet des équipements tiers, se pose d’ailleurs la question de la gestion de leur partie stockage. Historiquement, Nutanix était une solution d’infrastructure hyperconvergée, qui se contentait de simuler un pool de stockage depuis les disques intégrés aux serveurs hôtes. Dans son ambition de récupérer des clients déçus de VMware, Nutanix a depuis consenti à intégrer dans sa virtualisation les baies de Dell et de Pure Storage que ces clients possédaient.

Pour autant, LeMagIT a pu entendre que des visiteurs du stand de Nutanix s’interrogeaient sur le portage de cette fonctionnalité très orientée VM sous un environnement qui, d’une part, repose sur Kubernetes et qui, d’autre part, doit certainement nécessiter le même usage pointu du stockage que toutes les autres plateformes d’IA.

« Sur Kubernetes [à l’époque de la solution D2IQ, N.D.R], nous utilisions les pilotes CSI de ces fournisseurs, mais nous utilisons à présent nos propres pilotes CSI dès lors que ces solutions sont reconnues par notre hyperviseur comme du stockage externe. Cela permet de traiter ce stockage externe avec l’ensemble des outils Nutanix, notamment celui qui assure la continuité d’activité en cas de panne. C’est-à-dire que vous pourrez restaurer vos données d’IA ailleurs en cas de problème, y compris sur un cluster Kubernetes en cloud, quelle que soit la marque de stockage d’origine », commente Dan Ciruli.

« Concernant les performances, nous avons mesuré celles de notre stockage avec MLPerfs et elles sont très bonnes. Mais ce sont des besoins pour l’entraînement des IA. Ce que nous proposons ici est une solution d’inférence, pour utiliser des modèles d’IA déjà entraînés », ajoute-t-il.

Un avis que confirment différents spécialistes : l’entraînement a besoin de beaucoup de bande passante, car les GPU doivent vérifier régulièrement la cohérence globale des écritures qu’ils ont chacun effectuées simultanément. En revanche, le stockage n’est sollicité en inférence que lorsque le LLM a besoin de puiser dans la base vectorielle les connaissances issues des documents de l’utilisateur.

Les moteurs de RAG actuels se contentent de charger un minimum de données essentielles, qu’ils trouvent rapidement grâce au format des vecteurs. La caractéristique importante ici n’est donc pas la bande passante en Go/s, mais la quantité d’accès exprimée en IOPS. La solution pour favoriser ce paramètre consiste à utiliser des SSD NVMe internes, ou reliés via une carte réseau qui supporte le NVMe-over-Fabrics. De préférence du NVMe/RoCE pour favoriser les communications en rafale. Or, toutes les baies de stockage conçues pour l’IA en sont dotées.

Concernant les agents, dont la raison d’être est de lancer des exécutables tiers, ils devraient d’autant moins solliciter le stockage que, dans Nutanix Agentic AI, tous les applicatifs tiers sont censés être préchargés en mémoire sous la forme de containers.

Pour approfondir sur IA appliquée, GenAI, IA infusée