Réseau pour l’IA : Broadcom veut rattraper Nvidia avec le Tomahawk 6

Le nouvel ASIC sera capable de router 102,4 Tbit/s dans les switches Ethernet. Dell pourrait proposer d’ici à la fin de l’année un équipement avec 64 ports 1,6 Tbit/s pour interconnecter des GPU alternatifs à ceux de Nvidia.

Broadcom vient de dévoiler la nouvelle version 6 de sa puce Tomahawk de contrôle Ethernet, alias BCM78910. Installée au sein d’un switch, elle est capable de router les paquets réseau à la vitesse de 102,4 Tbit/s et d’interconnecter jusqu’à 512 machines. Ou, plus exactement, jusqu’à 512 cartes Ethernet installées dans les serveurs et les baies de stockage qui communiquent via le même switch, directement.

Le débit est fonction du nombre de cartes interconnectées. Lorsque le maximum de 512 cartes Ethernet est pris en charge par le Tomahawk 6, le débit maximal de chacune d’elles est de 200 Gbit/s.

Si les machines d’un cluster sont équipées de la dernière génération de cartes Ethernet en 400 Gbit/s, alors le nouvel ASIC de Broadcom ne pourra router le trafic qu’entre 256 unités, voire 128 unités, lorsqu’elles seront équipées des cartes Ethernet en 800 Gbit/s qui devraient arriver à la rentrée prochaine. « La puce Tomahawk 6 va nous permettre de mettre sur le marché le successeur de notre actuel PowerSwitch Z9864 à base de Tomahawk 5. C’est à dire un switch avec une taille de seulement 2U qui offre 64 ports Ethernet. Sauf que chacun de ces ports ne communiquera plus en 800 Gbit/s, mais en 1,6 Tbit/s », se réjouit un expert réseau de Dell, qui avait partagé l’annonce de cette nouvelle puce en avant-première avec LeMagIT lors de la récente conférence Dell Tech World 2025. Il n’a pas souhaité que son nom soit communiqué dans la presse.

Concurrencer Nvidia dans les réseaux de calcul de l’IA

« La puce Tomahawk 6 va nous permettre de mettre sur le marché […] un switch avec une taille de seulement 2U qui offre 64 ports Ethernet. Chacun [...] en 1,6 Tbit/s. »
Un expert réseau de Dell

L’expert ajoute qu’il suffira d’enchaîner un second switch sur chacun des ports du premier pour grimper, via une translation d’adresses, à 128 000 machines interconnectées dans le même réseau. Ce nombre n’est pas si astronomique : les plus puissants clusters de calcul de l’IA interconnectent déjà 100 000 GPU. L’intérêt d’utiliser des switches équipés du Tomahawk 6 est que deux fois moins d’équipements réseau seront nécessaires dans le cluster comparativement à la génération actuelle.

Notre expert n’indique pas la date de sortie de ce prochain switch. L’actuel PowerSwitch Z9864 a été mis sur le marché il y a environ huit mois. Broadcom, qui entend peser face à Nvidia et Cisco dans les réseaux très haut débit pour clusters de calcul de l’IA, prétend que des switches équipés de l’ASIC Tomahawk 6 pourraient être commercialisés d’ici à la fin de cette année.

En face, Nvidia a déjà un contrôleur Ethernet équivalent au Tomahawk 6. Il le vend au travers d’un switch Ethernet 2U Spectrum SN6810 de 128 ports à 800 Gbit/s et d’un switch Ethernet 8U Spectrum SN6800 de 512 ports (doté de quatre ASIC). Il propose aussi un switch Infiniband Quantum 3450 avec 128 ports à 800 Gbit/s. Le choix entre Ethernet et Infiniband est culturel : les entreprises maîtrisent la première technologie dans leurs réseaux, tandis que les centres de supercalcul préfèrent la seconde.

Dell propose à son catalogue les deux technologies. Les switches à base de puce Tomahawk et les cartes Ultra-Ethernet sont fabriqués par lui. Il se contente en revanche de revendre sous sa marque les modèles que Nvidia fabrique lui-même autour de ses puces.

« Si vous voulez interconnecter de serveurs avec des GPU Nvidia, vous prendrez des switches et des cartes réseau de Nvidia. Mais si vous souhaitez déployer des GPU de marque Intel ou AMD, alors vous ne serez pas obligé d’acheter votre réseau chez Nvidia grâce aux switches à base de puce Tomahawk », résume l’expert de Dell, sous-entendant que les équipements réseau de Nvidia coûtent plus cher.

Rappelons que ni Intel ni AMD n’ont fourni la preuve que leurs GPU étaient plus performants que ceux de Nvidia. En revanche, ils constituent une alternative intéressante dans le sens où la production de Nvidia ne suffit pas à couvrir dans le même temps les besoins des hyperscalers et des entreprises.

Une version CPO pour des réseaux fibre moins chers et moins énergivores

Un autre point important du contrôleur Tomahawk 6 est qu’il sera vraisemblablement proposé sous la forme d’un package CPO. Dévoilé précédemment par Nvidia pour équiper de futures versions « photoniques » de ses switches, ce package permet d’embarquer sur la carte mère du switch toute l’électronique qui loge d’ordinaire dans chaque adaptateur optique. Cela devrait éliminer les problèmes d’énergie et de coût que posent ces adaptateurs.

Ces adaptateurs à insérer dans les ports Ethernet d’un switch ou d’une carte réseau servent à faire voyager les informations sur des fibres optiques plutôt que des câbles réseau en cuivre. C’est indispensable pour transporter les signaux en très haut débit entre les baies de serveurs. Car, passé 100 Gbit/s, le cuivre des câbles chauffe au point que sa résistance empêche les signaux de voyager plus loin que quelques dizaines de centimètres.

Problème, à cause de l’électronique photonique qu’ils embarquent, ces adaptateurs de la taille d’un briquet coûtent une fortune. Les prix actuels se situent aux alentours de 1500 € l’unité, pour convertir des signaux électriques en ondes lumineuses entrelacées sur un seul port Ethernet en 400 Gbit/s.

« Et ce n’est pas qu’une question de prix. C’est aussi un problème de consommation électrique : rendez-vous compte que pour convertir 400 Gbit/s entre lumière et électricité, ce tout petit adaptateur consomme 30W d’électricité », lance l’expert de Dell. « Sur un switch 64 ports, cela revient à 1,9 kilowattheure. Soit plus que le 1,5 kWh que consomme le switch ! »

Dans la version actuelle de ses switches, Dell a mis au point un système intermédiaire, le LPO, qui consiste à laisser le convertisseur électrique/optique dans l’adaptateur, mais à déplacer le DSP calculant la forme et l’entrelacement des ondes lumineuses sur la carte mère du switch.

« Cela nous permet d’utiliser des adaptateurs qui consomment deux fois moins d’énergie », argumente l’expert de Dell, en pointant des adaptateurs spéciaux fabriqués par Siemens. Leur prix, en revanche, n’a pas été communiqué.

Dans la version CPO, il n’y a plus aucune électronique dans l’adaptateur. Les DSP et les circuits photoniques sont tous embarqués à l’intérieur du switch, généralement en couronne autour de la puce de contrôle Ethernet. Et c’est de cette couronne que partent directement les fibres. En guise de connecteurs et d’adaptateurs, la façade du switch n’a plus que des prises optiques femelles dans lesquelles on insère de simples embouts comme ceux des fibres Internet domestiques.

A priori, la puce Tomahawk 6 sera également compatible avec le système LPO utilisé par Dell.

Des ports 1,6 Tbit/s pour des machines qui fonctionnent en 400 Gbit/s

En pratique, un switch Ethernet équipé d’un ASIC Tomahawk ne va pas nécessairement être en connexion directe avec les machines dont il route les données. Que ce soit dans un cluster de nœuds de calcul comme dans les allées de serveurs d’un hyperscaler, un tel switch est placé en haut de chaque baie rack présente dans le datacenter. Une partie de ses ports sert à connecter les machines de la baie. Une autre partie est reliée aux switches des autres baies rack.

« C’est la raison pour laquelle un switch de 2U avec 64 ports est le format idéal », défend l’expert de Dell. « Si quatre machines d’une baie rack veulent communiquer en 200 Gbit/s avec quatre autres machines situées dans une autre baie rack, vous n’utilisez qu’une fibre en 800 Gbit/s entre les deux baies. »

Pour autant, il existe des configurations où les nœuds de calcul et leurs nœuds de stockage sont tous placés dans la même baie rack.

« Bien entendu, dans ces cas-là, chaque lien ne va transporter que 200 ou 400 Gbit/s. Mais il reste pertinent d’acheter des switches avec des ports 800 Gbit/s ou 1,6 Tbit/s, car ils ne coûtent pas beaucoup plus cher que ceux possédant des ports en 200 ou 400 Gbit/s. Et, ainsi, vos switches dureront plus longtemps, au-delà de la prochaine modernisation des cartes réseau dans vos serveurs et vos baies de disques », assure l’expert.

Il existe aussi des embouts qui désentrelacent les ondes optiques pour, à la sortie d’un port 800 Gbit/s, envoyer deux flux en 400 Gbit/s sur deux fibres qui serpentent chacune vers un serveur différent.

Ultra-Ethernet face à Spectrum-X

« Ultra-Ethernet est l’équivalent sous forme standardisée de ce que Nvidia appelle Spectrum-X, soit une extension propriétaire du protocole Ethernet dédiée à la congestion des paquets. »
Un expert réseau de Dell

Une logique critique de ces switches est la gestion de la congestion des paquets, ou comment éviter que plus de quatre machines cherchent à communiquer vers le même port en même temps. À ce titre, Broadcom implémente depuis sa puce Tomahawk 5 le protocole Ultra-Ethernet. Celui-ci consiste à envoyer sur le réseau des paquets « sondes » capables d’évaluer la disponibilité des destinataires et de revenir dire au switch quand il devrait envoyer quel paquet sur quel lien.

« Ultra-Ethernet est l’équivalent sous forme standardisée de ce que Nvidia appelle Spectrum-X, soit une extension propriétaire du protocole Ethernet dédiée à la congestion des paquets. Dans ce cas, il s’agit même d’une extension de RoCE (RDMA-over-Converged Ethernet), qui apporte à Ethernet la possibilité de communiquer sans perte de paquets », précise l’expert.

En revanche, Spectrum-X ne fonctionne que si les cartes Ethernet des machines sont elles-mêmes de marque Nvidia. Il s’agit soit des cartes ConnectX pour serveurs traditionnels, soit de cartes BlueField-3 capables d’injecter les données directement dans la mémoire des GPU… de Nvidia. De la même façon, pour supporter le protocole standard Ultra-Ethernet, il faudra utiliser des cartes réseau compatibles dans les serveurs. Par chance, Intel et AMD en proposent, pour interconnecter leurs GPU Gaudi3 et MI300.

Pour approfondir sur LAN, Wifi