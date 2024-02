Lors de son événement européen qui se tenait la semaine dernière à Amsterdam, Cisco a pré-annoncé une version étendue de ses serveurs UCS X qui intègre des GPU Nvidia H100. Ces machines sont présentées comme capables d’entraîner de grands modèles de langage ou, ce qui revient au même, d’exécuter des moteurs Machine Learning.

Cisco dément commercialiser une énième configuration serveur simplement équipée de cartes de Nvidia en version PCie. HPE, Dell ou SuperMicro l’ont fait en fin d’année dernière en ne niant pas que ces machines coûteraient plus cher en énergie et en réseau – du fait de l’utilisation d’Infiniband - que des configurations standard. Selon Cisco, les configurations UCS X, qui seront lancées d’ici à cet été, proposeront un design significativement plus simple, plus accessible et moins énergivore.

« Selon une étude récente de Bloomberg, les entreprises qui vont vouloir déployer cette année des infrastructures à demeure pour leurs projets d’IA sont majoritairement équipées de réseaux Ethernet. Et 66% de celles-ci sont clientes des infrastructures réseau Cisco. Il était donc pertinent pour Nvidia de développer un design de serveurs de calcul conçus pour Ethernet avec le principal spécialiste d’Ethernet », explique, sur scène, Jonathan Davidson, le Directeur général de l’activité réseau chez Cisco (en photo).

Une déclaration qui semble enchanter Neil Anderson, le directeur des contrats Cloud & Infrastructure chez l’intégrateur américain World Wide Technology : « nous sommes ravis que Cisco et Nvidia s’associent pour commercialiser des solutions de traitement de l’IA basées sur Ethernet. Les réseaux Ethernet équipent la majorité de nos clients. Cela signifie que nous allons pouvoir leur proposer des solutions très rapidement », dit-il, dans le cadre d’une communication officielle de Cisco.

Lors du même événement Cisco Live, le fournisseur a également annoncé l’arrivée de switches basés sur des puces accélératrices Silicon One, qui préparent les données pour l’IA à la volée, avant qu’elles arrivent jusqu’aux serveurs de calcul. Les puces Silicon One, très économiques en énergie, auraient le mérite de réduire les laps de temps durant lesquels les serveurs font du tri plutôt que du Machine learning. Et, bien entendu, ces puces ne fonctionnent que sur des réseaux Ethernet.

Cisco a aussi dévoilé Motific, un nouveau système qui sécurise l’exécution de grands modèles de langage et leur faire prendre en compte des données locales partagées sur le réseau local, sans nécessiter d’entraînement ni de fine tuning. Sans nécessiter le déploiement de baies de stockage accrochées à un réseau de type supercalcul. Bref, Cisco veut se positionner comme le fournisseur d’infrastructures d’IA qui consomment moins, qui coûtent moins cher, qui fonctionnent sur des technologies génériques.

« Et puis, surtout, nos UCS X sont dotés de cartes d’administration qui communiquent directement avec les consoles d’administration du système hôte. Elles montrent, en temps réel, des interfaces qui analysent le trafic réseau par flux applicatif et permettent de l’adapter très finement en quelques clics de souris, si ce n’est automatiquement via des règles », ajoute-t-il, en faisant référence au logiciel Intersight que Cisco met en avant comme une révolution dans l’administration réseau.

« Le problème des serveurs que nos concurrents proposent avec des GPUs Nvidia est que leur réseau et leur maintenance coûtent bien trop cher. À l’arrière, les serveurs sont reliés par des fibres SFP qui sont très complexes à configurer et qui consomment énormément d’énergie pour faire passer les données sous forme de signaux lumineux. Avec nos configurations UCS X, tous les serveurs et les GPUs sont dans un châssis qui interconnecte tout le monde sans passer par le moindre câble », argumente Bruno Caille, le directeur technique de Cisco France.

C’est ainsi que HPE, entre autres, a consenti à lancer des versions spéciales de ses baies de stockage Alletra équipées de connectique pour fibres Infiniband , afin d’être reliées à ses serveurs de calcul Cray EX254n (entraînement de modèles) ou ProLiant DL380a Gen11 (fine tuning et inférence) équipés de puces Nvidia. Des configurations similaires sont proposées par Dell et SuperMicro.

Jusqu’ici, le réseau privilégié pour les traitements de l’IA sur des GPU Nvidia est plutôt l’Infiniband. Et pour cause : Nvidia a précédemment racheté Mellanox, l’un des principaux acteurs de cette technologie, dans le but de dessiner lui-même des architectures de référence pour les calculs en IA et vendre ensuite aux fabricants de serveurs tous les composants nécessaires à son design.

On rappellera que, à la base, les configurations serveurs UCS X ont été créées pour imposer Cisco le segment des infrastructures hyperconvergées . Et ces machines fonctionnaient sous le système de virtualisation des calculs, du stockage et du réseau HyperFlex . En fin d’année dernière, Cisco a cependant abandonné HyperFlex, jugé trop coûteux à développer au regard des parts de marché obtenues.

Un format châssis qui condense jusqu’à 24 GPUs dans 7U

Dans les faits, Cisco propose ici un châssis haut de 7U, l’UCS X9508, dans lequel il insère en façade avant, verticalement, huit lames de calcul.

« Nous sommes très fiers de ce design qui, grâce à des serveurs installés verticalement, a moins besoin de refroidissement pour fonctionner. De plus, il nous permet de condenser beaucoup de GPUs – jusqu’à 24 dans un châssis 7U – sans nécessiter de refroidissement liquide. Uniquement en utilisant de la ventilation. Il y a agencement hors pair de 6 ventilateurs qui utilisent deux hélices tournant en sens opposés », se félicite Bruno Caille.

Il existe a priori trois modèles de lames.

Le modèle simple largeur UCS X210x M7 a deux processeurs Xeon Scalable de cinquième génération, jusqu’à 8 To de RAM et un cabinet sur sa propre façade avant qui accepte soit 6 SSD NVMe, soit 2 SSD NVMe et deux GPUs. Il est à noter que Cisco ne dit pas que ces GPUs-là, engoncés dans une lame serveur qui chauffe déjà à cause de ses processeurs Xeon, soient des H100. Il est plus probable qu’il s’agisse de GPUs L40S pour l’inférence (juste l’exécution des modèles préentraînés), qui seraient d’autant plus efficaces avec le logiciel Mostific.

Le modèle UCS X410x M7 a quatre Xeon, jusqu’à 16 To de RAM et uniquement 6 SSD NVMe dans son cabinet frontal. Il n’intègre pas de GPUs.

Le troisième modèle est une lame qui a uniquement vocation à contenir jusqu’à quatre GPUs Nvidia. Jusqu’à présent, Cisco proposait un modèle X440p uniquement compatible avec les précédentes cartes GPU A100 en PCIe 4.0. On ignore encore quel sera le nom de la carte pouvant supporter les GPU H100 en PCIe 5.0. Toutes les caractéristiques n’étant dévoilées qu’un peu avant l’été prochain.

On ignore aussi, d’ailleurs, quel modèle exactement de carte PCIe H100 sera embarqué. Il en existe deux dans le catalogue de Nvidia : la CNX qui n’a qu’une puce H100 et la NVL qui en a deux, capables de communiquer entre elles en 300 Gbit/s. Pour atteindre les 24 GPUs annoncés, il faudrait installer six lames, contenant chacune quatre GPUs, c’est-à-dire soit quatre H100 CNX, soit deux H100 NVL.