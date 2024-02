Astera Labs, le fabricant de connectique pour serveurs, lance un nouveau câble permettant d'étendre les clusters de GPU dans un datacenter. Son produit serait clé dans les travaux d’entraînement des modèles d’IA pour répartir les racks dans les allées, de sorte à réduire l’intensité des dégagements de chaleur et, ce qui avec, la consommation d'énergie des climatiseurs.

Baptisés Aries, ces nouveaux câbles à embout SCM sont faits de cuivre et sont capables de transporter le flux d’un bus PCIe 5.0 sur sept mètres, contre seulement trois mètres jusqu’ici. Astera Labs y parvient en plaçant dans l’embout SCM un DSP dédié au protocole et capable de compenser à la volée les dégradations de la transmission.

Cette longueur accrue permet une plus grande interconnectivité entre les GPUs, mais aussi entre des processeurs et des barrettes de RAM installées dans d’autres nœuds de calcul, une possibilité offerte par le protocole CXL qui étend le bus PCIe en réseau.

Concrètement, il n’est plus nécessaire de tous les entasser dans la même étagère Rack pour qu’ils communiquent. Il devient possible de les répartir entre plusieurs étagères. Et, de fait, d’augmenter le nombre de composants interconnectés, puisque leur quantité n’est plus limitée par la chaleur qui se dégage d’une seule étagère.

Un câble qui devrait propulser CXL sur le marché « Pour la première fois, il devient possible d’avoir une communication qui maintient la cohérence des caches entre les serveurs d’un cluster d’IA au-delà d’une seule étagère rack », commente l’analyste Baron Fung, du cabinet de conseil Dell’Oro Group. « Non seulement cela devrait propulser la carrière commerciale des produits CXL, qui démarre timidement, mais cela pourrait aussi mettre le tout venant des fabricants de GPU sur un pied d’égalité avec Nvidia. Car dès lors que vous n’avez plus de problème de connexion pour augmenter le nombre de GPUs, vous n’avez plus besoin d’installer les GPUs qui condensent le plus de puissance en un seul endroit », ajoute-t-il. Il fait remarquer que le protocole CXL – un standard ouvert défini par Intel - concrétise l’élasticité des clusters de calcul. Jusqu’alors, la seule possibilité pour répartir les calculs en cours de traitement entre plusieurs serveurs – c’est-à-dire commencer un traitement sur un serveur et, si celui-ci est saturé, le poursuivre sur un autre serveur du réseau – n’était faisable qu’au travers des connectiques propriétaires NVLink de Nvidia. Sans nécessairement permettre de multiplier les marques de GPUs dans un seul cluster, le protocole CXL est théoriquement capable d’interconnecter des GPUs comme le MI300 d’AMD, tout comme NVLink interconnecte des GPOU H100 de Nvidia. Avec l’avantage que le MI300 est à l’heure actuelle plus rapidement disponible sur le marché, pour un prix moins élevé. Et Intel doit aussi lancer des produits dans cette gamme, avec des conditions toujours plus avantageuses.