Cisco lancera bientôt des serveurs plus économiques pour l’IA
Attendus d’ici à cet été, les nouveaux châssis UCS X, capables de mettre jusqu’à 24 GPU Nvidia H100 dans un boîtier 7U, se contenteront d’un refroidissement à air et d’un réseau Ethernet.
Lors de son événement européen qui se tenait la semaine dernière à Amsterdam, Cisco a pré-annoncé une version étendue de ses serveurs UCS X qui intègre des GPU Nvidia H100. Ces machines sont présentées comme capables d’entraîner de grands modèles de langage ou, ce qui revient au même, d’exécuter des moteurs de Machine Learning.
Cisco dément commercialiser une énième configuration serveur simplement équipée de cartes de Nvidia en version PCie. HPE, Dell ou SuperMicro l’ont fait en fin d’année dernière en ne niant pas que ces machines coûteraient plus cher en énergie et en réseau – du fait de l’utilisation d’Infiniband – que des configurations standard. D’après Cisco, les configurations UCS X, qui seront lancées d’ici à cet été, proposeront un design significativement plus simple, plus accessible et moins énergivore.
« Selon une étude récente de Bloomberg, les entreprises qui vont vouloir déployer cette année des infrastructures à demeure pour leurs projets d’IA sont majoritairement équipées de réseaux Ethernet. Et 66 % de celles-ci sont clientes des infrastructures réseau Cisco. Il était donc pertinent pour Nvidia de développer un design de serveurs de calcul conçus pour Ethernet avec le principal spécialiste d’Ethernet », explique, sur scène, Jonathan Davidson, le directeur général de l’activité réseau chez Cisco (en photo ).
Une déclaration qui semble enchanter Neil Anderson, le directeur des contrats Cloud & Infrastructure chez l’intégrateur américain World Wide Technology : « nous sommes ravis que Cisco et Nvidia s’associent pour commercialiser des solutions de traitement de l’IA basées sur Ethernet. Les réseaux Ethernet équipent la majorité de nos clients. Cela signifie que nous allons pouvoir leur proposer des solutions très rapidement », dit-il, dans le cadre d’une communication officielle de Cisco.
Lors du même événement Cisco Live, le fournisseur a également annoncé l’arrivée de switches basés sur des puces accélératrices Silicon One, qui préparent les données pour l’IA à la volée, avant qu’elles arrivent jusqu’aux serveurs de calcul. Les puces Silicon One, très économiques en énergie, auraient le mérite de réduire les laps de temps durant lesquels les serveurs font du tri plutôt que du Machine learning. Et, bien entendu, ces puces ne fonctionnent que sur des réseaux Ethernet.
Cisco a aussi dévoilé Motific, un nouveau système qui sécurise l’exécution de grands modèles de langage et leur fait prendre en compte des données locales partagées sur le réseau local, sans nécessiter d’entraînement ni de fine tuning. Et sans nécessiter le déploiement de baies de stockage accrochées à un réseau de type supercalcul. Bref, Cisco veut se positionner comme le fournisseur d’infrastructures d’IA qui consomment moins, qui coûtent moins cher, qui fonctionnent sur des technologies génériques.
Des serveurs avec GPU Nvidia conçus pour fonctionner en Ethernet
Jusqu’ici, le réseau privilégié pour les traitements de l’IA sur des GPU Nvidia est plutôt l’Infiniband. Et pour cause : Nvidia a précédemment racheté Mellanox, l’un des principaux acteurs de cette technologie, dans le but de dessiner lui-même des architectures de référence pour les calculs en IA et vendre ensuite aux fabricants de serveurs tous les composants nécessaires à son design.
C’est ainsi que HPE, entre autres, a consenti à lancer des versions spéciales de ses baies de stockage Alletra équipées de connectique pour fibres Infiniband, afin d’être reliées à ses serveurs de calcul Cray EX254n (entraînement de modèles) ou ProLiant DL380a Gen11 (fine tuning et inférence) équipés de puces Nvidia. Des configurations similaires sont proposées par Dell et SuperMicro.
Bruno CailleDirecteur technique, Cisco france
« Le problème des serveurs que nos concurrents proposent avec des GPUs Nvidia est que leur réseau et leur maintenance coûtent bien trop cher. À l’arrière, les serveurs sont reliés par des fibres SFP qui sont très complexes à configurer et qui consomment énormément d’énergie pour faire passer les données sous forme de signaux lumineux. Avec nos configurations UCS X, tous les serveurs et les GPUs sont dans un châssis qui interconnecte tout le monde sans passer par le moindre câble », argumente Bruno Caille, le directeur technique de Cisco France.
Il met en avant que, en France, les serveurs UCS X ont notamment été choisis par l’hébergeur de cloud souverain Outscale, pour rationaliser et mieux maîtriser les flux de ses services sur le réseau.
« Et puis, surtout, nos UCS X sont dotés de cartes d’administration qui communiquent directement avec les consoles d’administration du système hôte. Elles montrent, en temps réel, des interfaces qui analysent le trafic réseau par flux applicatif et permettent de l’adapter très finement en quelques clics de souris, si ce n’est automatiquement via des règles », ajoute-t-il, en faisant référence au logiciel Intersight que Cisco met en avant comme une révolution dans l’administration réseau.
Basé sur Nutanix
Vijay Bhagavath, analyste spécialisé dans les infrastructures réseau pour datacenter, pour le cabinet d’études IDC, est enthousiaste : « si les entreprises veulent optimiser leurs activités grâce à l’intelligence artificielle, elles doivent maîtriser les exigences uniques que les charges de travail de l’IA vont imposer à l’infrastructure de leur data center. À ce titre, Cisco et Nvidia ont des technologies qui se complètent bien pour déployer la pleine puissance de l’IA sur des infrastructures Ethernet dont les performances sont optimisées », dit-il.
On rappellera que, à la base, les configurations serveurs UCS X ont été créées pour imposer Cisco dans le segment des infrastructures hyperconvergées. Et ces machines fonctionnaient sous le système de virtualisation des calculs, du stockage et du réseau HyperFlex. En fin d’année dernière, Cisco a cependant abandonné HyperFlex, jugé trop coûteux à développer au regard des parts de marché obtenues.
À la place, ses machines UCS fonctionnent désormais sous le système de Nutanix. Ce dernier se félicite d’ailleurs d’un tel partenariat qui ajoute à sa visibilité dans un contexte où les entreprises cherchent une alternative aux technologies VMware depuis son rachat par Broadcom.
« Nous avons un partenariat véritablement technique avec Nutanix, dans le sens où Intersight est intégré à leur console Prism. Nutanix est la clé pour déployer des data centers en mode cloud privé. Et c’est important parce que c’est ce que demandent les entreprises aujourd’hui », ajoute Bruno Caille.
Un format châssis qui condense jusqu’à 24 GPUs dans 7U
Dans les faits, Cisco propose ici un châssis haut de 7U, l’UCS X9508, dans lequel il insère en façade avant, verticalement, huit lames de calcul.
« Nous sommes très fiers de ce design qui, grâce à des serveurs installés verticalement, a moins besoin de refroidissement pour fonctionner. De plus, il nous permet de condenser beaucoup de GPUs – jusqu’à 24 dans un châssis 7U – sans nécessiter de refroidissement liquide. Uniquement en utilisant de la ventilation. Il y a un agencement hors pair de 6 ventilateurs qui utilisent deux hélices tournant en sens opposés », se félicite Bruno Caille.
Il existe a priori trois modèles de lames.
- Le modèle simple largeur UCS X210x M7 a deux processeurs Xeon Scalable de cinquième génération, jusqu’à 8 To de RAM et un cabinet sur sa propre façade avant qui accepte soit 6 SSD NVMe, soit 2 SSD NVMe et deux GPUs. Il est à noter que Cisco ne dit pas que ces GPUs-là, engoncés dans une lame serveur qui chauffe déjà à cause de ses processeurs Xeon, soient des H100. Il est plus probable qu’il s’agisse de GPUs L40S pour l’inférence (juste l’exécution des modèles préentraînés), qui seraient d’autant plus efficaces avec le logiciel Mostific.
- Le modèle UCS X410x M7 a quatre Xeon, jusqu’à 16 To de RAM et uniquement 6 SSD NVMe dans son cabinet frontal. Il n’intègre pas de GPUs.
- Le troisième modèle est une lame qui a uniquement vocation à contenir jusqu’à quatre GPUs Nvidia. Jusqu’à présent, Cisco proposait un modèle X440p uniquement compatible avec les précédentes cartes GPU A100 en PCIe 4.0. On ignore encore quel sera le nom de la carte pouvant supporter les GPU H100 en PCIe 5.0. Toutes les caractéristiques n’étant dévoilées qu’un peu avant l’été prochain.
On ignore aussi, d’ailleurs, quel modèle exactement de carte PCIe H100 sera embarqué. Il en existe deux dans le catalogue de Nvidia : la CNX qui n’a qu’une puce H100 et la NVL qui en a deux, capables de communiquer entre elles en 300 Gbit/s. Pour atteindre les 24 GPUs annoncés, il faudrait installer six lames, contenant chacune quatre GPUs, c’est-à-dire soit quatre H100 CNX, soit deux H100 NVL.
Quatre modules d’interconnexion à l’arrière
À l’arrière du châssis, on trouve quatre lames d’interconnexion entre tous les nœuds de calcul. Elles sont positionnées horizontalement, perpendiculaires aux lames frontales.
En haut, deux lames Intelligent Fabric Module (IFM) 9108 assurent les échanges en réseau Ethernet. Elles véhiculent ensemble une bande passante cumulée de 1,6 Tbit/s, à raison de deux fois 100 Gbit/s par lame de calcul. Ce sont ces cartes qui exécutent toute l’intelligence du logiciel de gestion Intersight.
Il est important de noter que les lames frontales portant les cartes PCIe GPU H100 y sont aussi connectées pour leur permettre d’aller lire et écrire directement leurs données sur une baie de stockage externe. Car même si Cisco se plaît à dire qu’il n’y a plus de câble, son design prévoit tout de même que les modules IFM soient reliés par fibres SFP à des switches Cisco externes UCS 6400 ou 6500 (également pilotés par Intersight). Ceux-ci prolongent les connexions vers d’autres serveurs UCS ou des baies de stockage, en fibre ou en cuivre, en Ethernet 100 Gbit/s ou en FiberChannel 32 Gbit/s.
Historiquement, Cisco proposait des configurations UCS X accompagnées de baies de stockage Pure Storage, ici contrôlées par le logiciel Portworx, en guise d’infrastructures hyperconvergées optimisées pour l’exécution d’applications en containers. Mais peu avant l’ouverture du salon Cisco Live, le fournisseur a dévoilé un nouveau partenariat avec Hitachi Vantara pour vendre des bundles comprenant des serveurs UCS X et des baies VSP.
En bas du châssis, sous les ventilateurs, deux lames X-Fabric Module (XFM) assurent les interconnexions PCIe. LeMagIT n’a pas pu obtenir la référence des prochains modèles qui véhiculeront les canaux PCIe 5.0 entre les lames x86 et celles qui portent les GPU H100. Les modèles de la génération précédente sont des X9416 qui proposaient 32 canaux PCIe 4.0 sur chaque emplacement.
Il est à noter qu’une carte H100 PCIe, comme sa prédécesseuse A100, utilise 16 canaux PCIe. Cela signifie qu’une lame de calcul UCS X210x ne pouvait accéder à pleine vitesse qu’à deux GPU A100 à la fois et que seule la lame X410x pouvait en utiliser quatre en même temps. Si Cisco confirme qu’une lame simple largeur pourra désormais contenir jusqu’à 4 puces GPUs H100, alors cela signifie que le module XFM devrait véhiculer 64 canaux PCIe par emplacement.
LeMagIT n’a pas pu obtenir d’informations concernant le support de CXL, une fonctionnalité des derniers processeurs Xeon qui permet aussi aux serveurs de communiquer entre eux via les canaux PCIe. CXL autorise par exemple un serveur à lire ou écrire des données dans la RAM sur les SSD NVMe d’un autre serveur. Mais dans le cas d’une configuration qui confie l’essentiel des calculs aux GPUs, déjà interconnectés en PCIe, l’importance de CXL est accessoire. Sauf si, bien entendu, Cisco veut permettre aux GPUs de lire directement leurs données d’entraînement depuis les SSD embarqués dans les lames x86.