Re:Invent2025 : AWS dévoile ses nouvelles infrastructures pour l’IA
L’hyperscaler dote son cloud IaaS EC2 de nouvelles configurations basées sur son GPU Trainium3 et d’autres sur des derniers GPU de Nvidia. Deux technologies d’abord concurrentes, mais qui semblent vouées à se combiner.
L’hyperscaler AWS a profité de son événement annuel Re:Invent, qui se tient à Las Vegas, pour présenter toute une collection de nouvelles offres d’infrastructures dédiées à l’IA. En vedette, les AWS Factories sont des machines de calcul pour l’IA qui, c’est notable pour un fournisseur de cloud, s’installent dans les datacenters privés des entreprises.
Du côté des serveurs de calcul en ligne, le catalogue des infrastructures payables à la demande (EC2) s’enrichit de nouvelles machines virtuelles Trn3 motorisées par le GPU maison, le Trainium3. Le prochain Trainium4 a aussi été dévoilé en avant-première lors de cette même édition. On en sait peu de choses à son propos : il sera trois fois plus performant que le Trainium3 sur l’entraînement et supportera enfin des traitements sur 4 bits plus optimaux pour l’inférence.
Un point intéressant est que, selon le discours d’ouverture de Matt Garman, DG d’AWS (en photo en haut de cet article), Trainium3 et Trainium4 sont censés aussi bien servir à l’entraînement de modèles d’IA qu’à l’inférence de modèles déjà entraînés. Auparavant, les Trainium et Trainium2 ne servaient qu’à l’entraînement, l’inférence étant prise en charge par une puce Inferentia et des machines virtuelles dédiées. À croire qu’Inferentia pourrait disparaître du catalogue.
AWS insiste pour dire que les puces qu’il fabrique lui-même, et cela comprend aussi le processeur ARM Graviton (dont AWS n’a pas plus parlé lors de Re:Invent 2025), coûtent bien moins cher en électricité que celles du commerce.
Pour autant, l’hyperscaler annonce dans le même temps l’arrivée des toutes dernières puces Nvidia à son catalogue. Elles sont présentées sur EC2 sous la forme de VM baptisées P6 à base de processeurs Intel Xeon et de GPU Nvidia Blackwell (B200 pour l’instant, B300 bientôt) et P6e qui, elles, reposent sur les processeurs ARM Grace de Nvidia (les kits dits « 1xCPU + 2xGPU », GB200 ou GB300).
Nvidia Blackwell ou AWS Trainium3 ?
« Nous proposons aussi bien nos propres GPU que ceux de Nvidia, car le modèle de programmation n’est pas le même. Celui de Nvidia est largement distribué et majoritairement maîtrisé par les développeurs. Nos puces Trainium permettent de faire des économies substantielles en production, mais il faut faire l’effort d’apprendre à les programmer », décrypte Sébastien Stormacq, porte-parole des développeurs chez AWS.
De fait, selon des développeurs que LeMagIT a pu interroger sur place, le SDK Neuron qu’AWS propose pour écrire du code exécutable sur Trainium est jugé « frustre ».
Selon Sébastien Stormacq, il y aurait une tendance naturelle à préférer l’architecture Trainium à partir d’une certaine taille, dès lors que les économies réalisées sur le fonctionnement des puces dépassent les investissements supplémentaires (ressources humaines, formations) pour développer avec le SDK Neuron. Facile à dire, mais pas simple à calculer, car l’hyperscaler se garde bien de donner des chiffres comparatifs précis.
Officiellement, une puce Trainium3 a une puissance de calcul de 2,52 pétaflops en 8 bits et embarque une mémoire HBM3e de 144 Go avec laquelle elle communique à la vitesse de 4,9 To/s. Ces caractéristiques sont a priori quatre fois meilleures que celles du Trainium 2 précédent. AWS peut mettre 144 Trainium3 dans une baie rack « UltraServer » constituée de 18 serveurs de quatre GPU chacun. On ignore la consommation énergétique.
En face, un GPU Nvidia B200 avec 192 Go de mémoire HBM3e atteint plutôt 4,5 pétaflops en 8 bits et a une bande passante mémoire de 8 To/s. Les B200 comme les Trainium3 sont gravés avec une finesse de 3 nm sur les mêmes chaînes du taiwanais TSMC.
En clair, un B200 est environ 1,8 fois plus performant qu’un Trainium3. Pour qu’un Trainium3 ait un rapport prix/performance et même consommation/performance plus intéressant, il faudrait donc qu’il coûte ou qu’il consomme au moins deux fois moins. Soit 61 dollars par heure pour 8 GPU, puisqu’une VM P6 de 8 GPU B200 est facturée 120 $/heure sur EC2. Et soit dans les 650 Watts, puisqu’un B200 consomme (et dissipe) 1300 watts. Au moment où nous écrivons ces lignes, LeMagIT n’a pas réussi à obtenir la confirmation de tels chiffres.
En plus de ses 8 GPU Nvidia B200, une VM P6 totalise 192 cœurs x86 (les vCPU), 2 To de RAM, 1,44 To de mémoire HBM, 8 ports Ethernet 400 Gbit/s (compter 100 Gbit/s vers un service de stockage EBS optionnel) et 8 SSD internes de 3,84 To chacun.
Une VM P6e correspond quant à elle à un cluster DGX NVL-72 de Nvidia. Elle comprend 72 GPU B200, 36 processeurs Grace correspondant à 2592 vCPU ARM (des cœurs, donc), 17 To de RAM, 13 To de mémoire HBM, une bande passante réseau qui totalise 28,8 Tbit/s de bande passante (1 Tbit/s vers du stockage EBS) et 405 To de stockage interne.
À l’heure où nous écrivons ces lignes, les spécifications techniques des VM Trn3 ne sont pas connues, ni celles des VM Trn3 UltraServers qui totalisent 144 GPU.
AI Factories, des clusters de calcul d’AWS physiquement chez les clients
À l’instar des serveurs AWS Outpost qui correspondent à des clusters physiques de machines virtuelles EC2 à installer sur site, pour répondre à des problématiques de bande passante ou de réglementations, les machines AWS AI Factory sont des baies censées éviter aux entreprises d’aller envoyer leurs données en cloud. Cela dit, elles correspondent exactement aux clusters Nvidia B200 ou Trainium3 qu’AWS utilise dans ses propres datacenters.
« Nous avons des clients, des grands comptes, qui, pour diverses raisons, utilisent des datacenters en propre, dans lesquels ils ont beaucoup investi, mais dans lesquels ils ont du mal à créer un environnement accéléré pour le calcul de l’IA. Avec ces IA Factories, nous leur apportons clés en main toute l’expertise nécessaire et la solution prête à l’emploi pour qu’ils puissent enfin utiliser des GPU Nvidia ou Trainium, avec le bon réseau, le bon stockage et tous les processeurs nécessaires », décrit Julien Grouès, qui dirige les régions France et Europe du sud d’AWS.
À ce stade, AWS ne livre pas plus de détails techniques sur les configurations des AI Factories que sur les VM à base de Trainium3. Concernant les versions basées sur des GPU Nvidia, et vu l’aspect extérieur de la machine, il s’agit très probablement d’un cluster de plusieurs serveurs physiques ayant les mêmes caractéristiques que les VM P6 sur EC2.
On sait que ces machines utiliseront l’hyperviseur Nitro et les switches Ethernet EFA, des technologies propriétaires qui font fonctionner les infrastructures EC2 d’AWS. Il n’est donc pas question a priori de pouvoir mixer des AI Factories d’AWS avec des serveurs conventionnels de Dell, HPE et autres Lenovo bardés de GPU. À l’instar des machines Outpost, les IA Factories sont présentées comme des régions privées d’AWS, que l’on paie à l’usage, et qui se mettent à jour avec le reste d’EC2.
Demain, du réseau Nvidia pour toute l’infrastructure AWS
À l’occasion de ses présentations, AWS a discrètement indiqué que les versions futures, à base de Trainium4 comme de GPU Rubin, adopteront la technologie d’interconnexion NVLink de Nvidia. NVLink est pour ainsi dire le concurrent propriétaire de Nvidia aux réseaux CXL qui permettent de mettre directement en réseau des puces, pour que leurs accès mémoire transitent sur des fibres jusqu’à d’autres serveurs. Cette information est sans doute révélatrice de l’influence que Nvidia a désormais sur le marché ; normalement, NVLink était conçu pour ne jamais épauler que les seules puces de Nvidia.
Un réseau NVLink permet d’atteindre une bande passante de 1,8 Tbit/s entre deux puces (900 Gbit/s dans un sens et autant dans l’autre), qu’il s’agisse de GPU, de processeurs ou d’autres accélérateurs. L’année prochaine, la sixième génération de cette technologie atteindra 3,6 Tbit/s de bande passante.
LeMagIT suppute que NVLink devrait en toute logique servir à connecter ensemble des Trainium4 et des Rubin dans les prochaines évolutions du cloud IaaS EC2 d’AWS. De là à penser que les économiques Trainium pourraient ne plus être présentés que comme des puces d’inférence en accompagnement des GPU Nvidia pour l’entraînement, il n’y a qu’un pas. On pourrait même se demander si, dès lors, AWS aura encore besoin de fabriquer des processeurs Graviton ou s’il ne sera pas plus simple de prendre ceux de Nvidia, qui reposent sur le même jeu d’instruction ARM.
