Puces réseau : Jericho4 de Broadcom connecte les GPU entre datacenters
La dernière génération de contrôleurs pour équipements d’interconnexion supporte 36 000 communications simultanées entre deux datacenters distants de 95 km, réduisant drastiquement l’électricité consommée par le routage à l’arrivée.
Broadcom commercialise ces jours-ci la dernière version 4 de sa puce Jericho pour équipements d’interconnexion réseau entre datacenters. Celle-ci est désormais capable de transférer des données à la vitesse de 51,2 Tbit/s, à raison de 36 000 flux de 1,6 Tbit/s chacun, ou 18 000 de 3,2 Tbit/s, sans perte sur des fibres optiques longues de 95 km.
Par rapport à la génération précédente, Jericho4 promet une réduction de 40 % de la consommation d'énergie par bits transférés, notamment grâce à sa gravure en 3 nm par TSMC, indique le fournisseur.
Surtout, la puce est désormais équipée d’une mémoire HBM qui lui permet d’éviter les goulets d’étranglement lors du microroutage de flux à l’échelle des accélérateurs eux-mêmes. C’est une différence majeure par rapport aux versions précédentes de Jericho. Celles-ci étaient conçues pour transférer des données de clusters à clusters, laissant le soin au destinataire de recalculer la répartition des paquets entre des dizaines de serveurs qui devaient eux-mêmes recalculer la répartition entre leurs GPU.
La mémoire HBM embarquée dans la puce Jericho4 permet de pousser la précision des flux pour qu’ils n’adressent plus que quatre destinataires à la fois, réduisant drastiquement le temps de calcul des répartitions de données à l’arrivée. Jericho4 pourrait mémoriser l’adresse directe de plus d’un million de GPU ou autres puces de calcul (DPU, FPGA, ASIC, etc.).
Ce dispositif va de pair avec la gestion du réseau par les GPU eux-mêmes, une technologie appelée GPUdirect chez Nvidia. À l’arrivée, ce réseau entre GPU est géré chez Nvidia par des switches Spectrum-X. Mais Broadcom propose ses propres équipements, avec des switches basés sur ses puces Tomahawk, dont la version 6 a été commercialisée en juin dernier.
Réduire la consommation électrique des usines d’IA
« Qu’il s’agisse d’interconnecter des datacenters distants ou même des salles différentes sur un même campus, il y a cette nouvelle notion d’usine d’IA qui démultiplie les routages de paquets directement vers les puces accélératrices, plutôt que vers des clusters de plusieurs serveurs. Or, cette croissance du routage a un impact très important sur la consommation électrique, les coûts en refroidissement et la latence dans les datacenters », commente Jim Frey, analyste chez ESG.
Selon lui, le fait de prendre en charge l’essentiel de ce routage au niveau des équipements d’interconnexion fait tomber plusieurs obstacles qui empêchaient les entreprises de déployer une usine d’IA optimale
« L'efficacité énergétique est devenue une préoccupation pour les entreprises qui cherchent à augmenter rapidement leurs charges de travail liées à l'IA, car les GPU gourmands en énergie font grimper la consommation d'énergie. Sans même parler de la facture, certains sites sont plafonnés en termes d’arrivée électrique », dit-il.
Il ajoute que l’intérêt de Jericho4 sera de permettre aux entreprises de répartir leurs traitements d’IA entre plusieurs petits sites sans pour autant souffrir d’une perte de performances. En effet, les groupes de quatre flux gérés par la puce autorisent des connexions point à point en 400 ou 800 Gbit/s, respectivement les vitesses actuelles et de prochaine génération des connectiques réseau sur les GPU.