Réseau : AWS adopte le routage par graphes aléatoires

L’architecture RNG deviendra le réseau par défaut pour les nouvelles infrastructures dépourvues de GPU chez l’hyperscaler.

L’hyperscaler AWS annonce avoir adopté une nouvelle architecture réseau pour ses datacenters : le RNG, ou Resilient Network Graphs. Réservée aux clusters de serveurs dépourvus de GPU, cette architecture remplace la topologie classique en arborescence par un maillage de switches qui se trouvent tous au même niveau et font circuler les données de proche en proche. Cette architecture est régie par un algorithme de graphes qui génère des parcours aléatoires pour les flux de données.

Selon AWS, cette topologie offre un débit supérieur d’environ 33 % à celui d’une structure en arborescence, une consommation d’énergie inférieure d’environ 40 % et une diminution de 69 % du nombre de switches.

En effet, dans un réseau traditionnel où une colonne vertébrale dessert des switches par rangée de baies rack – d’où d’autres switches desservent les baies, et d’autres encore desservent cette fois-ci les serveurs – les engorgements sont fréquents et on les résout autant que possible avec des connexions redondantes, donc des switches supplémentaires. En revanche, lorsqu’il n’y a pas d’engorgements, les switches redondants consomment de l’énergie pour rien.

Un principe qui a attendu 14 ans pour être mis en pratique

Le concept à la base de la structure RNG – faire prendre à tout le monde des chemins sinueux au hasard plutôt qu’envoyer tout le monde sur les mêmes embranchements qui forment le chemin le plus court – n’est pas nouveau. Les chercheurs soutiennent depuis longtemps que les interconnexions de graphes aléatoires permettent d’utiliser la bande passante plus efficacement que les architectures hiérarchiques. L’article scientifique Jellyfish en a démontré les avantages théoriques dès 2012.

Cependant, des obstacles opérationnels, comme la complexité des décisions de routage et un câblage potentiellement chaotique, avaient toujours empêché ces topologies de sortir des laboratoires. AWS affirme être parvenu à des résultats probants avec de nombreuses modélisations et plusieurs prototypes déployés en production. Et trouver la meilleure implémentation lui a pris du temps : « la complexité du câblage a été un vrai défi, nous créions à chaque fois un véritable fouillis de câbles », raconte Matt Rehder, le patron du réseau chez AWS.

Selon l’article technique qui décrit la structure RNG, l’efficacité de cette implémentation ne repose pas sur des logiciels qui routent au hasard les paquets dans les switches, mais sur des petits boîtiers, les Shuffleboxes, qui changent aléatoirement les aiguillages physiques entre les fibres au niveau des switches.

Une solution pour les serveurs applicatifs, pas pour les GPU

Le succès de cette implémentation est salué par les analystes spécialistes des réseaux. Ron Westfall, du cabinet HyperFRAME Research, a qualifié cette initiative de « tournant architectural », car il estime que les avantages en matière de performances et de coûts mis en avant par AWS vont certainement inciter d’autres hyperscalers à évaluer des approches similaires.

Cette innovation a le mérite d’éviter les goulets d’étranglement dans les clusters de cloud, où les applications piochent leurs ressources dans des pools de calcul, de stockage, de fonctions, etc. Elle présente aussi l’intérêt de pouvoir étendre les pools de ressource d’une infrastructure sans devoir entièrement repenser chaque fois le réseau. En revanche, elle n’est absolument pas adaptée à la mise en réseau des GPU, car elle ne favorise pas le chemin le plus court.

Les réseaux dédiés aux GPU évitent les goulets d’étranglement grâce à des algorithmes de pointe qui communiquent les données en rafale. Notamment en réservant des liens en amont d’une communication, afin d’éviter la perte de paquets. Cette approche très efficace pour les GPU n’est à l’inverse pas adaptée au cloud, car elle est très rigide et très énergivore.

Toutefois, la structure RNG peut être utilisée en IA agentique, car les agents fonctionnent sur des processeurs classiques, sans GPU. Et il reste possible d’interconnecter un réseau de GPU avec un réseau RNG.

La structure RNG a commencé à être déployée dans les datacenters d’AWS situées en Espagne et en Allemagne. Elle doit se généraliser sur tous les sites de l’hyperscaler d’ici à la fin de l’année.

Cet article est l’adaptation d’une actualité parue en anglais sur DataCenterKnowledge.

Pour approfondir sur LAN, Wifi