VMware Explore 2025 : VCF 9 devient une infrastructure pour l’IA

Sans supplément de prix, Broadcom ajoute à sa plateforme de virtualisation un pack Private AI Services qui permet de passer en quelques clics de souris d’un LLM à une application d’IA utilisable localement et enrichie de données privées.

Après les machines virtuelles et les containers, VMware se veut désormais le moteur d’orchestration des applications d’intelligence artificielle. À l’occasion de son salon annuel VMware Explore qui se tient cette semaine à Las Vegas, l’éditeur a présenté deux nouveautés qui enrichissent sa plateforme VCF 9 en ce sens. Les Private AI Services regroupent toutes les briques pour exécuter des IA. Tandis que le support des tout derniers GPU de Nvidia (B200, RTX Pro 6000) et d’AMD (MI350X) sert à répartir leur puissance entre des VM et des containers.

« L’essentiel des applications d’IA sont hébergées dans le cloud. C’est un problème pour un nombre grandissant d’entreprises qui cherchent à reprendre le contrôle et la souveraineté de leurs données, de leur propriété intellectuelle. Nous incluons donc tous les services d’IA dans notre plateforme de cloud privé VCF 9. Et, mieux, nous le faisons gratuitement », argumente Paul Turner, le directeur Produit de VCF chez Broadcom, maison mère de la marque VMware.

Ubuntu, le Linux intégré pour mieux rivaliser avec Red Hat

En marge de ces annonces, VMware a passé un accord avec Canonical pour livrer tout aussi gratuitement son Linux Ubuntu dans VCF 9. L’idée technique derrière cette approche serait que les entreprises souhaitent déployer tout ce qui a trait à des applications d’IA sous forme de containers Kubernetes. VMware propose sa propre version de Kubernetes, VKS (vSphere Kubernetes Service), et jure qu’il ne s’agit que d’une version packagée pour VCF du Kubernetes standard, de la CNCF. Mais Kubernetes a besoin d’un Linux pour fonctionner.

« Oui, nous avions déjà à notre catalogue Photon OS, un Linux minimaliste. Mais, très clairement, le fait d’intégrer Ubuntu à VCF pour exécuter VKS nous permet de prétendre que nous avons une meilleure plateforme qu’OpenShift de Red Hat », reconnaît Paul Turner, en citant la solution commerciale leader du marché pour exécuter des containers.

Il avance un argument financier : la plupart des déploiements d’OpenShift se feraient par-dessus des machines virtuelles, le plus souvent au-dessus d’un cluster VMware. Donc, l’introduction gratuite d’Ubuntu et de VKS dans VCF permettrait d’économiser le prix d’OpenShift. Paul Turner affirme par ailleurs qu’Ubuntu serait la plateforme libre la plus utilisée pour exécuter des containers sans contrat de support, mais que, en étant inclus dans VCF, il bénéficiait automatiquement des services de support de VMware. Sans payer plus.

Précisons par ailleurs que VCF 9 bénéficie d’une mise à jour fonctionnelle appelée « Memory tiering ». Celle-ci consiste à pouvoir virtualiser la mémoire du serveur hôte entre sa RAM physique, de la mémoire Flash extrêmement rapide et, en dernier recours, de l’espace de stockage sur des SSD NVMe. Selon Paul Turner, cette fonctionnalité bénéficierait au fonctionnement des applications d’IA. Or, elle ne sera supportée sous Kubernetes que grâce à la présence d’un pilote tout spécialement développé par VMware pour Ubuntu.

Des modules pour passer des LLM aux applications d’IA prêtes à l’emploi

Les Private AI Services sont des modules fonctionnels (entraînement, inférence, RAG...) que l’utilisateur peut configurer avec des paramètres précis (quel LLM, quelles données, quelles ressources GPU...) pour chacun de ses projets d’IA. Dans le cadre de sa conférence, l’éditeur présente sur un stand dédié un scénario d’usage type constitué de quatre modules : Model Store, Model Runtime, Data Indexing et Agent Builder.

Dans Model Store, l’utilisateur place tous les LLM qu’il a pu récupérer de diverses sources : Hugging Face, Nvidia AI Enterprise, etc. Avant de pouvoir être exploité, le modèle d’IA est testé sur ses failles de sécurité, ses hallucinations, ses biais et ses performances par une machine virtuelle spéciale (fournie) qui applique un protocole de test dans un environnement étanche. Parmi les outils utilisés, le logiciel Open source français Giskard. La machine virtuelle est configurable avec d’autres outils.

Une application d’IA a besoin de deux modèles. Le premier, dit de « completion », est l’IA qui répond aux prompts des utilisateurs. Le nom du LLM porte généralement la mention « Instruct ». Le second dit de « embedding », dont le nom porte souvent la mention « retriever », est celui qui est capable d’ajouter au prompt des données externes pour enrichir les connaissances de l’IA.

Confection automatique d’une VM par projet d’IA, pilotable via Kubernetes

Dans Model Runtime, il suffit de choisir les deux modèles précédemment testés. La console va générer à la fin de cette étape la machine virtuelle avec Ubuntu et KVS pour les exécuter. L’utilisateur définit d’abord qui y aura accès et choisit le runtime qui enverra les requêtes au LLM.

« Nous proposons par défaut d’utiliser le runtime vLLM, car c’est celui que nous avons le plus testé et que nous trouvons le plus optimal pour tirer parti de la puissance d’un GPU. Mais vous pouvez en choisir un autre comme Ollama », explique le démonstrateur de Broadcom.

Reste à lui attribuer un profil de VM. Il y en aura autant que de types de GPU différents dans le cluster. Un point très important à noter est que la capacité d’utiliser une fraction de la puissance (et de la mémoire) d’un GPU Nvidia passera par l’utilisation du pilote vGPU du constructeur, lequel est soumis à une licence payante.

Au moment où nous écrivons ces lignes, les GPU MI350X d’AMD ne sont pas encore officiellement supportés dans VCF, mais un responsable de VMware explique qu’ils seront gratuitement virtualisés. Il reste également possible de choisir une VM qui utilisera à 100% un GPU Nvidia, sans licence supplémentaire.

Toutes ces opérations produisent un code YAML, copiable depuis l’interface, pour que des développeurs puissent mettre en production cette VM depuis l’outil kubectl.

Une plateforme clés en main pour le RAG

Vient ensuite la partie consacrée aux données sources à ajouter à l’IA, une opération appelée RAG. L’expert prend en exemple des documents PDF, donc des fichiers dans un répertoire.

« Je pourrais utiliser en données sources un stockage S3, un service de stockage en cloud, ou encore un SharePoint. La seule source de données que nous ne gérons pas encore sont les bases SQL. Mais cela arrivera dans la prochaine version de VCF, via des serveurs MCP (Model Context Protocol) », dit-il.

« Les documents sources ne sont pas interrogeables tels quels. Il faut les convertir en vecteurs, qui seront indexés par une base PostgreSQL que nous fournissons. Mais tout cela se fait de manière transparente. L’utilisateur crée dans la partie Data Indexing une base de connaissances. Dans celle-ci, nous configurons en nombre de tokens la taille des morceaux (chunks) qu’il faudra indexer individuellement », explique-t-il, en indiquant que « 200 » correspond généralement à un paragraphe.

« Nous fournissons de la documentation concernant les bonnes pratiques de tailles. Mais notez qu’il s’agit ici d’un travail de datascientist », ajoute-t-il. Puis il appuie sur un bouton pour charger dans la base de connaissances les fichiers PDF voulus.

Plus la quantité de documents chargés sera importante, plus le processus sera long. La console prévoit une fonction pour automatiser chaque nuit l’ajout des données créées dans la journée. « Cela s’apparente aux sauvegardes en somme », illustre l’expert de Broadcom.

Un agent IA d'appoint pour tester et déployer

La dernière partie se situe dans le module Agent Builder. Il s’agit en fait d’un chatbot, directement utilisable, avec une interface en Open WebUI, qui fonctionne avec tous les modèles, via l’API d’OpenAI. Il suffit de lui indiquer le nom du projet d’IA configuré lors des étapes précédentes, ainsi que la taille de sa fenêtre de travail en tokens pour l’utiliser.

« Cet agent a le mérite de vous indiquer dans quel document il a trouvé la réponse à votre prompt, ce qui est important pour les audits » pointe l’expert. La fonction de cet agent dans cette interface est de tester que tout fonctionne. Il s’agit ensuite d’un « nœud Kubernetes » autonome que les utilisateurs autorisés pourront lancer indépendamment et dont les développeurs pourront enjoliver l’interface.

En l’état, l’ensemble du projet forme un bloc – un namespace - avec ses modèles, ses données et son agent. Pour utiliser les mêmes données avec le même agent, mais des modèles différents, il faut créer un second projet.

« Cela crée des doublons et consomme des ressources inutiles. Dans la prochaine version, nous permettrons le partage des données ou des modèles entre plusieurs namespace », conclut l’expert.

Cette prochaine version sera celle qui apportera le support des GPU MI350X d’AMD et B200 de Nvidia. Pour l’heure, le GPU le plus récent supporté est le RTX Pro 6000 de Nvidia.

Pour approfondir sur IA appliquée, GenAI, IA infusée