Réseaux optiques : Nvidia s’associe avec ses concurrents pour standardiser l’OCI-MSA
Le consortium OCI-MSA doit permettre à tous les fabricants de proposer le même dispositif CPO qui encode les paquets en signaux optiques depuis l’intérieur d’un switch. Le fait saillant est que, pour la première fois, Nvidia va travailler à casser son hégémonie.
Les fabricants de puces Nvidia, Broadcom, AMD, ainsi que les acteurs de l’IA en cloud Microsoft, Meta et OpenAI annoncent se regrouper au sein d’un consortium, l’OCI-MSA (Optical Compute Interconnect - Multi-Source Agreement). Celui-ci travaillera à standardiser une technologie de switch optique taillée pour router les informations dans les clusters de calcul.
« En s'alignant sur une spécification ouverte, les membres de l'OCI MSA favorisent la mise en place d'un écosystème optique solide qui garantira que l'avenir des interconnexions pour l'IA repose sur une base flexible et multifournisseuse, capable de répondre aux besoins en matière d'interconnexions optiques des infrastructures d'IA modernes », dit le communiqué.
Selon différents observateurs, la surprise de cette annonce est moins dans son projet que dans la collaboration inédite de Nvidia avec ses concurrents, alors qu’il a toujours revendiqué faire cavalier seul. Et, ce, d’autant plus que le No 1 des GPU est aussi, à date, celui qui a développé la technologie la plus en avance dans le domaine des réseaux par fibre optique. Il y a un an, il dévoilait ainsi des switches Quantum-X (InfiniBand) et Spectrum-X (Ethernet) dans lesquels les puces de contrôle étaient entourées d’une couronne de convertisseurs photoniques appelée CPO (co-packaged optics).
Le génie de ce dispositif est qu’il évite de mettre de tels convertisseurs dans chacun des connecteurs réseau SFP (électriques), ce qui coûte d’ordinaire très cher et consomme beaucoup d’énergie, juste pour utiliser des fibres optiques à la place que des câbles en cuivre.
Convertir l’électricité en lumière depuis l’intérieur des switches
La problématique adressée ici est que les switches sont des appareils électroniques qui communiquent par défaut leurs données sur des connecteurs électriques dans lesquels s’enfichent des câbles en cuivre. Du fait de la résistance électrique du cuivre, les données voyagent avec ces câbles sur une distance d’autant plus courte que le débit est élevé. Pour atteindre des bandes passantes de 400 Gbit/s et plus entre des machines installées dans des étagères rack différentes, il devient ainsi nécessaire de les faire circuler sur des fibres optiques.
Transiter entre des signaux électriques générés par le composant ASIC, qui route le trafic au sein d’un switch, et des signaux lumineux capables de voyager sur des fibres optiques implique l’installation entre les deux d’un composant photonique. La solution jusqu’ici retenue est de mettre ce composant dans un capuchon aux deux extrémités de chaque fibre optique. Mais cela fait passer le prix de chaque fibre optique de quelques euros à plus d’un millier d’euros.
Pour éviter des coûts rédhibitoires, la solution proposée par Nvidia est d’atteindre une certaine économie d’échelle en regroupant ces composants photoniques au sein des switches installés dans chacune des baies rack. Mais encore faut-il savoir comment encoder les signaux optiques à cet endroit-là. C’est le but de l’OCI-MSA.
Inciter Nvidia à collaborer pour obtenir une technologie standardisée
L’initiative de faire travailler ensemble Nvidia, Broadcom et AMD, qui fabriquent chacun des puces réseau, serait du fait de Microsoft, Meta et OpenAI. Ils auraient souhaité imposer à leurs équipementiers de se mettre d’accord sur un standard afin de pouvoir multiplier les fournisseurs en cas de stock indisponible chez l’un ou l’autre. À cette fin, un standard serait gage d’interopérabilité entre les marques.
« Une feuille de route normalisée réduit considérablement les risques liés à l'intégration, raccourcit les cycles de développement et offrira à l'ensemble de la chaîne d'approvisionnement des racks d'IA une voie claire et sans risque pour le déploiement d'interconnexions optiques multigénérationnelles et multifournisseurs », écrit à ce sujet le communiqué.
Dans les faits, la version 1.0 de la spécification du standard, écrite par AMD, Broadcom et Meta, correspond bel et bien au dispositif en couronne photonique autour de l’ASIC contrôleur qu’avait inventé Nvidia.
Ainsi, chaque convertisseur photonique de la couronne serait capable de véhiculer, dans les deux sens, quatre ondes lumineuses superposées portant chacune un débit de 50 ou 100 Gbit/s par direction, soit 400 Gbit/s en entrée et 400 Gbit/s en sortie par connecteur optique présenté comme (véhiculant un total de) « 800 Gbit/s ».
Dans les versions futures du standard, chaque connecteur (et donc chaque fibre) devra supporter une bande passante bidirectionnelle de 1,6 Tbit/s, puis de 3,2 Tbit/s.
Notons que le but du standard OCI-MSA est tout autant de normaliser le principe d’une couronne interne de convertisseurs photonique que de définir le format des paquets de données afin qu’ils soient efficacement encodés en ondes lumineuses.
L’enjeu de casser l’hégémonie de Nvidia
Jusque-là, la politique de Nvidia consistait à enfermer les clients dans ses technologies. Ainsi, CUDA, son kit de développement qui permet de créer des applications optimisées pour GPU (dont des IA) génère du code qui fonctionne seulement sur ses propres puces, incitant les entreprises à ne pas acheter de GPU AMD ou autres, puisqu’ils sont incompatibles.
Il en va de même dans les réseaux. Son Spectrum-X est une extension propriétaire du protocole RoCE (RDMA over Converged Ethernet) pour faire passer les données directement d’une baie de stockage à la mémoire d’un GPU. Mais Spectrum-X ne fonctionne que si les cartes réseau de part et d’autre et le switch au milieu sont de marque Nvidia.
Dans ce contexte de monopole, même Cisco, le plus important fabricant de switches Ethernet, est contraint de revendre sous sa marque des switches Nvidia pour exister sur le segment des réseaux pour clusters d’IA. Et, ce, alors que Cisco a mis au point ses propres ASIC Silicon One censés être autrement plus puissants que les contrôleurs qui équipent les switches Spectrum de Nvidia. Hélas, Nvidia n’autorise pas le portage du protocole Spectrum-X sur les ASIC Silicon One. Ni sur aucun autre.
De fait, des efforts de standardisation sont menés pour tenter de sortir de la mainmise de Nvidia sur les technologies réseau. Il existe ainsi un consortium UEC qui promeut le protocole Ultra-Ethernet, un concurrent de Spectrum-X implémentable par tous les fabricants. Dans les faits, Dell propose déjà des cartes réseau et des switches dits « Ultra-Ethernet » qu’il fabrique lui-même à partir d’ASIC Tomahawk fabriqués par Broadcom.
À date, cette configuration sert à accélérer le transfert de données vers des serveurs de calcul essentiellement équipés de GPU instinct MI3xx ou MI4xx d’AMD. Lesquels sont minoritaires puisqu’ils n’exécutent pas la majorité des applications compilées avec CUDA. Pour faire la même chose avec des serveurs équipés de GPU Nvidia, Dell n’a d’autre choix que de revendre des switches Spectrum de Nvidia.
On trouve également le réseau UALink qui, lui, vise à proposer une alternative ouverte à NVLink. NVLink est le réseau que Nvidia a développé pour que ses GPU, et eux seuls, communiquent entre eux, ce qui est plus rapide qu’en passant par la RAM des serveurs qui hébergent ces accélérateurs. Le consortium UALink est porté par les fabricants de puces de calcul Intel et AMD, par les fabricants de serveurs (HPE notamment) et, encore une fois, par les hyperscalers soucieux de rester libres de choisir les marques de leurs équipements.
Un troisième effort de standardisation réseau est l’ESUN (Ethernet for Scale-Up Networking), qui est porté par le consortium Open Compute Platform auquel adhèrent tous les fabricants de matériels. ESUN a vocation à normaliser un format de paquets de données pour qu’ils soient capables de voyager le plus vite possible à la fois entre des GPU, entre les serveurs et leurs baies de stockage et entre des datacenters qui pourraient partager des calculs.
ESUN se base sur les travaux d’UALink et du consortium UEC (Ultra-Ethernet Consortium). Dans tous les cas, il s’agit d’éviter les congestions dans la circulation des données, lesquelles sont essentiellement dues à des différences de temps de réponse entre les appareils connectés sur un même réseau. Pour régler ces problématiques de temps de réponse par les matériels, il est nécessaire que les différents protocoles soient implémentés dans les ASIC.
Pour l’heure, Nvidia ne participe ni à UALink, ni à l’Ultra-Ethernet et seulement du bout des doigts à l’ESUN, pour qu’il soit compatible avec ses réseaux Spectrum-X et NVLink.
