À Amsterdam, Cisco veut redevenir un leader de l’infrastructure
L’équipementier réseau arrive avec des architectures tout-en-un pour l’IA. Outre des switches Ethernet intégrant des accélérateurs de fonctions, il se relance surtout dans les serveurs, avec des configurations simples pour utiliser l’IA en entreprise.
Cisco entend renforcer sa présence dans les datacenters avec des solutions plus intégrées que la concurrence. À l’occasion de son salon européen Cisco Live qui s’est tenu cette semaine à Amsterdam, l’équipementier a dévoilé un serveur C8845A M8 de seulement 4U pour faire de l’inférence. Mais aussi une sorte d’infrastructure convergée, c’est-à-dire tout-en-un, également dédiée à l’inférence. Elle s’appelle AI Pod et met dans une même baie des serveurs de calcul, du stockage et des switches pour les relier. La solution se décline en quatre configurations prêtes à l’emploi, toute la pile logicielle AI Enterprise de Nvidia comprise.
« Seulement 7 % des entreprises en Europe sont prêtes pour l’IA. Et vous savez pourquoi ? Parce que plus de 70 % d’entre elles n’arrivent pas à trouver la bonne infrastructure pour en faire. Parce que 35 % d’entre elles ont mis en place une infrastructure qui ne répond finalement pas à leurs besoins. Notre mission est donc de gommer cette complexité pour que les entreprises n’aient plus peur de perdre des marchés faute de savoir aussi bien maîtriser l’infrastructure que leurs concurrents », a lancé, sur scène, Oliver Tuszik, le patron de Cisco pour la zone EMEA (en photo en haut de cet article).
« Il faut comprendre une chose. Vous avez des gens, comme Meta, comme Mistral, qui entraînent des modèles de fondation. Mais au niveau des entreprises, l’enjeu n’est pas d’entraîner des LLM, il est d’utiliser ceux déjà entraînés pour faire de l’IA générative, de l’inférence. L’inférence, soit l’utilisation de l’IA, c’est un marché qui va représenter sous peu 10 à 20 fois le PIB de la Chine. Et pour l’inférence, il est possible de proposer des configurations tout-en-un », explique Kevin Wollenweber, le patron de la division Data Center and Provider Connectivity.
« L’inférence, soit l’utilisation de l’IA, c’est un marché qui va représenter sous peu 10 à 20 fois le PIB de la Chine. Et pour l’inférence, il est possible de proposer des configurations tout-en-un. »
Kevin WollenweberSVP & General Manager de la division Datacenter and Provider Connectivity, Cisco
Dans la même veine, on trouve deux nouveaux switches Ethernet Nexus 9300 qui embarquent, grâce à des DPU, des services réseau d’ordinaire exécutés ailleurs. Deux modèles ont été présentés, l’un avec 48 ports, pour interconnecter des baies de rack dans un datacenter, et l’autre avec 24 ports, pour interconnecter des datacenters entre eux. Dans cette première génération, les deux boîtiers disposent du logiciel HyperShield dans le firmware de leurs DPU. HyperShield exécute une multitude de fonctions firewalls et l’intérêt ici est qu’il est directement intégré sur les équipements qui font office de passerelle, minimisant ainsi les temps de latence.
« Dans les data centers, les traitements d’IA éclipsent même les plus grands projets informatiques que les entreprises ont jusqu’ici menés. Dès lors, l’infrastructure des data centers doit être entièrement repensée pour supporter ces traitements d’IA. Il ne suffit pas d’accélérer l’infrastructure avec des switches plus rapides. Les services réseau eux-mêmes doivent être accélérés », a lancé, sur scène Jeetu Patel, le patron des produits chez Cisco.
Rappelons que, depuis la fin de pandémie de Covid, l’équipementier Cisco s’était désintéressé des matériels en datacenter, en particulier les serveurs, pour miser sur les logiciels d’observabilité. Cet événement Cisco Live signe donc son grand retour dans les infrastructures.
Une infrastructure convergée pour l’exécution de modèles d’IA
Dans le détail, les quatre modèles d’AI Pods sont étiquetés « inférence d’appoint », « inférence augmentée par RAG », « inférence augmentée par RAG à grande échelle » et « cluster élastique d’inférence ». Leur différence matérielle tient au nombre et à la nature des lames installées dans un châssis UCS X9508 de huit lames et 7U de haut.
Deux types de lames s’insèrent dans ce genre de châssis. Celles qui correspondent aux serveurs x86 sont ici des X210 M7 comprenant deux processeurs Xeon 5 de 32 cœurs, avec une fréquence qui s’échelonne de 2,5 à 4,1 GHz. Les autres lames sont des X440p. Elles servent juste aux serveurs de tiroir de cartes PCIe ; ce sont elles qui portent les GPU.
Pour l’inférence d’appoint, l’AI Pod comprend une lame X210C avec 512 Go de RAM, plus cinq SSD NVMe de 1,6 To chacun, et une lame X440p avec un GPU Nvidia L40S.
Pour l’inférence augmentée par le RAG, l’AI Pod a deux lames X210C, identiques aux précédentes (soit un total de quatre processeurs, 1 To de RAM et 16 To de stockage) et deux lames X440p qui contiennent chacune, cette fois, deux GPU L40S, soit un total de quatre GPU.
La version RAG à grande échelle est similaire à la version RAG simple, soit quatre lames en tout, mais les quatre GPU sont ici des Nvidia H100 NVL.
Enfin, dans la version élastique, le châssis est rempli de ses huit lames. Les quatre X210C cumulent huit processeurs, 1,5 To de RAM et 22,8 To de stockage.
Le stockage proposé dans les serveurs, à raison de SSD de 1,6 ou 1,9 To redondants, a surtout vocation à lancer les logiciels. Il s’agit du système OpenShift AI for MLOps de Red Hat (qui exécute tous les traitements sous forme de containers), la suite AI Enterprise de Nvidia (qui propose des LLM et des applications d’inférence sous forme de modules NIMs), et du système d’administration Intersight de Cisco.
Les données personnelles de l’entreprise à fournir à l’IA, pour qu’elle réponde plus précisément sur ses enjeux métiers, sont à stocker sur un NAS. Cisco n’a validé que deux fournisseurs : NetApp, pour ses baies AFF, ou Pure Storage, pour ses FlashBlade. Selon la quantité de lames dans la partie serveur et de ports sur la partie stockage, les deux sous-ensembles sont reliés avec switch Cisco UCS 6454 (48 ports 25 Gbit/s + 6 ports 100 Gbit/s) ou 64108 (96 ports 25 Gbit/s + 12 ports 100 Gbit/s).
Une première implémentation du mini design MGX de Nvidia
Le serveur UCS C845A M8 est pour sa part une implémentation du nouveau design MGX de Nvidia, lequel correspond à une version miniature des designs DGX et HGX. La machine se veut personnalisable : ses deux processeurs AMD Epyc 9005 (cinquième génération) peuvent avoir chacun 48, 64 ou 96 cœurs, respectivement en 3,65 à 4,8 GHz, 3,3 à 5 GHz et 2,6 à 4,5 GHz.
La mémoire peut être étendue à 3 To de RAM, via 32 barrettes de 96 Go à 4,4 GHz, ou à 1,5 To de RAM si l’on prend l’option plus rapide de 16 barrettes de 96 Go à 5,2 GHz. Les 2, 4, 6 ou 8 GPUs seront pour leur part des Nvidia L40S, ou H100, ou H200, montés sur carte PCIe.
La machine est censée pouvoir accueillir jusqu’à 20 SSD au format E1.S qui pourraient suffire pour stocker les données d’entreprise et ainsi avoir une machine entièrement autonome. Pour autant, il est plus probable que ces données seront plutôt stockées sur des baies de disques externes.
Pour communiquer avec elles, voire pour mettre en réseau plusieurs serveurs C845A M8, Cisco propose des cartes Ethernet… Nvidia. En l’occurrence des cartes Ethernet BlueField-3 B3240 (400 Gbit/s à répartir sur deux ports optiques SFP) ou B3220 (200 Gbit/s à répartir sur deux ports optiques SFP). Ces cartes peuvent communiquer avec le protocole Spectrum-X de Nvidia, soit du RoCE enrichi d’une couche propriétaire de Nvidia. Celle-ci réduit la latence des communications grâce à un système de paquets-sondes qui mesurent le trafic et peuvent commander aux cartes réseau émettrices d’envoyer leurs paquets dans un certain ordre.
« Oui, l’ASIC Silicon One Q200 est capable de router des paquets GPUdirect. Non, il ne route pas encore toutes les subtilités des paquets Spectrum-X. Mais je tiens à insister sur le fait qu’il ne le fait pas… pour le moment. »
Kevin WollenweberSVP & General Manager de la division Datacenter and Provider Connectivity, Cisco
« Dans le design de la solution MGX de Nvidia, de toute façon, les GPU à l’intérieur du serveur communiquent entre eux via un protocole NVLink. Il nous faut des cartes BlueField – ou Connect-X sur un réseau InfiniBand – pour prolonger ce protocole et son sous-protocole GPUdirect Storage vers l’extérieur du serveur », dit Kevin Wollenweber.
« Nous connectons les cartes BlueField entre elles, au sein de nos switches Nexus 6000 basés sur notre ASIC Silicon One Q200. Celui-ci est capable de router jusqu’à 12,8 Tbit/s entre 60 ports 10/25/50 Gbit/s ou 32 ports 100/200/400 Gbit/s. Depuis l’été dernier – et cela arrive ces jours-ci sur le marché –, nous travaillons avec Nvidia pour administrer le routage de ses protocoles dans la console d’administration SaaS Nexus HyperFabric », ajoute-t-il.
« Oui, l’ASIC Silicon One Q200 est capable de router des paquets GPUdirect. Non, il ne route pas encore toutes les subtilités des paquets Spectrum-X. Mais je tiens à insister sur le fait qu’il ne le fait pas… pour le moment », précise-t-il, en suggérant qu’il pourrait s’agir d’une annonce pour le prochain événement américain Cisco Live, qui se tiendra en juin à San Diego.
« Pour que ce soit encore plus clair : l’idée d’HyperFabric est d’exécuter un agent Cisco sur les cartes BlueField. Un agent capable d’envoyer de la télémétrie au switch Cisco et de recevoir des ordres de la part de ce switch Cisco, pour agencer l’envoi des paquets de sorte à éviter des congestions », dit encore Kevin Wollenweber.
Il acquiesce au fait qu’il s’agit exactement du fonctionnement de Spectrum-X, mais refuse de dire s’il est question pour Cisco d’implémenter le protocole de Nvidia sous licence, ou une manière pour Cisco et Nvidia de préparer les esprits à la standardisation de Spectrum-X.
À l’heure actuelle, les seuls switches capables de router pleinement du Spectrum-X sont les SN5400 et SN5600 de Nvidia. Ils le font grâce à un ASIC mis au point par Nvidia, sur la base des ASIC autrefois utilisés par Mellanox pour l’InfiniBand.
Des switches pour accélérer les communications
Les nouveaux switches Ethernet dits « Smart Switches » sont les modèles Nexus 9348Y2C6D (48 ports 25 Gbit/s + 6 ports 400 Gbit/s), pour interconnecter les étagères rack dans les datacenters, et N9324C (24 ports 100 Gbit/s) pour interconnecter les datacenters entre eux. Le premier a quatre cartes DPU et le second seulement deux. Ces cartes DPU exécutent elles-mêmes le code installé dans leur firmware grâce à une puce Pensando d’AMD. Il s’agit d’un ASIC qui intègre des cœurs ARM.
« Pour l’instant, le code exécuté par les DPU est Hypershield. Hypershield est une réinvention de la manière dont fonctionne un firewall. En intégrant une partie de ses fonctionnalités directement dans un switch, nous pouvons mettre en place des pare-feu basés sur des zones », commente Kevin Wollenweber.
Selon lui, ce point précis résout un problème auquel sont confrontées les entreprises qui abandonnent VMware pour une solution de virtualisation, ou de containerisation, alternative. Elles perdent au passage l’avantage d’un firewall exécuté au plus près des applications, grâce à NSX, le réseau virtuel de VMware. En déplaçant Hypershield dans chaque rack de serveurs, la latence n’est peut-être pas aussi faible qu’avec NSX, mais elle est bien plus avantageuse que la contrainte habituelle de filtrer les paquets.
« Chaque DPU peut exécuter un code différent. Cela signifie que nous pourrons avoir plusieurs accélérations par switch, pour d’autres choses que la sécurité. Mais nous n’avons aucune visibilité sur les futures implémentations à ce stade », confie Kevin Wollenweber, sans vouloir se prononcer sur une accélération éventuelle concernant plus spécifiquement les traitements d’IA.
La carte mère de ces switches est contrôlée par un autre ASIC Silicon One, l’E100. Version moderne du K100, cet E100 peut router 4,8 Tbit/s. Bien que l’E100 soit environ 2,5 fois moins rapide que le Silicon One Q200 qui équipe les switches Nexus 6000, l’E100 dispose d’une gravure plus fine, en 5 nm. Le Q200 est issu d’une génération précédente, gravée avec une finesse de 7 nm, mais il dispose d’un atout que l’E100 n’a pas : il intègre une mémoire HBM, comme les GPU.