Serveurs pour l’IA : Cisco présente sa solution modulaire
Durant Cisco Live Amsterdam, le constructeur a présenté au public les lames qui permettent à son châssis UCS X9508 de devenir un cluster de calcul particulièrement modulaire pour exécuter des IA génératives en entreprise.
Un matériel dans lequel on investit au fil des besoins. Cisco a profité de son événement annuel européen Cisco Live qui se tenait cette semaine à Amsterdam afin de présenter au public ses derniers serveurs modulaires pour les traitements d’IA générative en entreprise ; plus particulièrement les lames d’interconnexion UCS X580p et UCS X9516 X-Fabric pour le châssis UCS X9508.
Ces équipements ont vocation à démocratiser l’utilisation d’IA préentraînées en entreprise, avec une approche plus évolutive que les habituels serveurs en boîtiers racks qui intègrent à la fois les processeurs, les GPU et les cartes réseau.
Accessoirement, Cisco améliore le logiciel AI Defense qu’il avait lancé l’année dernière pour inventorier, tester et encadrer de droits d’accès les IA susceptibles d’être exécutées sur ces équipements. La nouvelle version prend en charge les communications qui transitent entre des agents d’IA, des applications et des LLM, que ce soit localement comme vers des services en cloud, via des serveurs MCP ou des API.
Bien plus modulaire qu’un serveur en rack
Comme Dell, HPE et d’autres, Cisco commercialise des configurations serveur compactes, classiquement refroidies par air et la plupart du temps appelées « AI Pods », pour exécuter des IA préentraînées en entreprise. Mais il est le seul à proposer un format en lames dans cette catégorie.
« L’idée du châssis de lames est d’avoir une infrastructure très évolutive, très versatile. Plutôt que d’acheter un serveur hors de prix taillé pour une puissance fixe, vous pouvez démarrer avec une configuration minimale puis, au fur et à mesure que votre projet monte en puissance, changer les processeurs pour des modèles avec plus de cœurs, répartir les GPU entre plusieurs serveurs ou attribuer tous les GPU à un serveur de calcul et aucun à un serveur applicatif qui pilote le serveur de calcul », explique Eldho Jacob, directeur produits chez Cisco.
En face avant, le châssis UCS X9508 comporte huit emplacements. On y insère deux types de lames serveur : la lame X215c M8 (deux AMD Epyc 9005 pouvant cumuler 320 cœurs, jusqu’à 6 To de RAM et 6 SSD NVMe) et la lame X210c M8 (deux Intel Xeon 6 pouvant cumuler 172 cœurs, jusqu’à 8 To de RAM et 9 SSD NVMe).
Il est possible de mettre jusqu’à quatre lames serveur dans le châssis.
Ces lames serveur sont complétées par de doubles nouvelles lames PCIe X580p, dans lesquelles on peut insérer d’une à quatre cartes GPU. S’agissant de travaux d’inférence, trois cartes PCIe sont possibles : Nvidia LS40S (48 Go de mémoire GDDR6, puissance de 91.61 TFLOPS en précision 16 bits, 350 W), Nvidia RTXPRO 6000 Blackwell (96 Go de mémoire GDDR7, puissance de 126 TFLOPS en 16 bits, 600 W) et Nvidia H200 NVL (141 Go de mémoire HBM3e, puissance de 241,3 TFLOPS en précision 16 bits, 600 W).
Il est possible d’insérer une ou deux lames X580p dans le châssis, soit un nombre de GPU qui peut grimper jusqu’à huit, soit comme sur les serveurs d’IA au format rack monobloc habituel.
À l’arrière du châssis, on trouve quatre emplacements horizontaux, dont les deux du bas peuvent chacun être équipés d’une nouvelle lame d’interconnexion UCS X9516 X-Fabric. Cette dernière fait office de switch PCIe 5.0 entre les lames serveur, les lames X580p et deux cartes réseau PCIe qu’elle peut intégrer.
« Les GPU insérés dans une lame X580p peuvent fonctionner seuls ou travailler de concert par paire NVLink [en communiquant à la vitesse de 900 Go/s ou 1,8 To/s selon les GPU, N.D.R.]. Chaque lame X580p peut être attribuée à une lame serveur ou être partagée entre deux lames serveur. En dehors des paires NVLink et indépendamment des serveurs, tous les GPU du châssis peuvent communiquer entre eux en GPU Direct via des liens RDMA apportés par la puce contrôleur ConnectX-7 embarquée sur la lame X9516 X-Fabric [liens Infiniband de 200 Gbit/s chacun, N.D.R.] », décrit Eldho Jacob.
Ajoutons à cela que les deux emplacements PCIe de chaque lame X9516 X-Fabric accueilleront soit des cartes ConnectX pour relier les GPU du châssis à d’autres GPU externes, soit des cartes Ethernet pour relier toutes les lames du châssis à une baie de stockage externe. À ce titre, Cisco propose des bundles avec NetApp, Pure Storage et Vast.
Une solution Nvidia et Red Hat, avec l’observabilité en plus
Jusqu’ici, cette solution n’est prévue que pour des GPU Nvidia et est généralement vendue en bundle avec des licences pour la suite logicielle AI Enterprise de Nvidia.
L’entreprise est a priori libre de choisir les systèmes d’exploitation qu’elle installera sur les lames serveurs, mais LeMagIT croit comprendre qu’il s’agira dans tous les cas de l’une des variantes d’OpenShift de Red Hat : OpenShift AI, ou OpenShift Kubernetes Engine, ou OpenShift Container Platform, tous en version bare-metal, c’est-à-dire sans virtualisation Nutanix ou autres en dessous.
L’ensemble est administré par la console Cisco Intersight, depuis laquelle fonctionne, en option, AI Defense.
« AI BOM apporte cette visibilité approfondie sur les éléments constitutifs spécifiques à l’IA. Il montre quels composants sont utilisés, où ils se trouvent, ce qu’ils font et leurs failles. »
Chetan AnandIngénieur spécialisé en Machine learning, Cisco
En ce qui le concerne, Cisco AI Defense est plus exactement un framework composé, d’une part, de bibliothèques pour les développeurs d’applications basées sur l’IA et, d’autre part, de plugins pour des consoles de supervision, dont Intersight et Splunk. Dans cette dernière catégorie, le principal nouveau module est AI BOM (Bill of Materials), qui permet d’afficher de manière graphique les liens entre les composants des IA.
« Les solutions dites SBOM (Software Bill of Materials) habituelles se contentent de donner de la visibilité sur les applications et leurs dépendances. Cela n’est pas suffisant pour obtenir une supervision complète d’un projet d’IA, où un chatbot va se connecter à plusieurs agents, utiliser plusieurs outils MCP et communiquer avec des bases de données vectorielles pour construire une réponse cohérente. AI BOM apporte cette visibilité approfondie sur les éléments constitutifs spécifiques à l’IA. Il montre quels composants sont utilisés, où ils se trouvent, ce qu’ils font et leurs failles », détaille Chetan Anand, ingénieur spécialisé en Machine learning chez Cisco.
Outre le plugin pour Splunk, AI BOM est aussi disponible sous la forme d’une bibliothèque de fonctions librement téléchargeable depuis GitHub pour que les développeurs d’une entreprise cliente créent leurs propres consoles de monitoring.