Ampere : « nous vendons des performances par rack et non par watt »
Dans cette interview, le fabricant de processeurs ARM pour serveurs, qui lancera bientôt des modèles en 256 et 512 cœurs, explique que les performances dont se targuent ses concurrents sont un faux-nez au regard de l’efficacité énergétique.
Ampere, qui propose aux datacenters de s’équiper en processeurs ARM bien moins énergivores que les x86 d’Intel ou d’AMD, a annoncé début août l’arrivée prochaine de trois nouveaux modèles d’AmpereONE. À la rentrée, l’AmpereOne M aura toujours 192 cœurs gravés avec une finesse de 5 nm, mais 12 canaux mémoire au lieu de 8 jusqu’à présent. Courant 2025, un nouvel AmpereOne MX arrivera avec 256 cœurs gravés en 3 nm et 12 canaux mémoire. En 2026, enfin, un AmpereOne « Aurora » offrira 512 cœurs dans une seule puce.
Mais il y a mieux : Ampere promet que ce processeur AmpereOne Aurora pourra exécuter des traitements d’IA sans qu’il soit besoin de cartes accélératrices additionnelles. Et, ce, dans des serveurs qui consommeront si peu d’énergie et qui pourront toujours être refroidis par de simples ventilateurs. Le fabricant estime qu’il s’agit là d’un argument clé pour les hébergeurs de datacenters. Ceux-ci font actuellement face à l’obligation d’investir dans la transformation de leurs sites pour accueillir du refroidissement à eau s’ils veulent pouvoir déployer les prochaines générations de processeurs x86 et de GPU.
Pour autant, Ampere se contente de parler de traitement d’inférence (soit l’utilisation de modèles préenregistrés),et non d’entraînement – le processus qui nécessite les GPU les plus puissants pour s’exécuter dans un laps de temps commercialement réaliste.
« Pour le dire simplement, nous allons intégrer dans nos processeurs les unités de traitement qui accélèrent la recherche dans des bases de données vectorielles », explique Jeff Wittich, le directeur des produits chez Ampere.
Pour mieux comprendre ce qui fait la spécificité des solutions d’Ampere, LeMagIT s’est entretenu avec lui, ainsi qu’avec Atiq Bajwa, le directeur technique qui chapeaute le design des processeurs AmpereOne. Interview.
Quel est l’argument clé des processeurs AmpereOne qui séduit vos clients ?
Jeff Wittich : Notre approche est de ne plus vendre de la performance par énergie consommée, ce que font les fabricants de processeurs historiques, mais de nous positionner sur la performance par étagère rack dans le datacenter.
Tout simplement parce que si vous suivez les projections de nos concurrents, vous arrivez à des étagères rack qui consomment 500 kilowattheures, voire un mégawattheure. Or, 77 % des datacenters dans le monde ont une puissance maximale par rack de 20 kWh. Cela signifie que ces datacenters ne peuvent tout simplement pas héberger de manière efficace les serveurs x86. Ces clients ont besoin d’une approche nouvelle.
En offrant un calcul vraiment dense et efficace, nous sommes en mesure de démontrer certaines directions très convaincantes contre AMD et Intel. Selon les tests de performance les plus récents, nos processeurs AmpereOne à 192 cœurs sont ainsi 34 % plus performants que les AMD Epyc 9654 à 96 cœurs (192 threads également) et 76 % plus performants que les Intel Xeon 8596+ à 64 cœurs (128 threads).
Jeff WittichDirecteur des produits, Ampere
Cela signifie que pour exécuter une charge générique, comme des applications web avec des containers et des bases de données, vous n’aurez besoin que de 80 serveurs à base d’AmpereOne là où il vous en faut 100 à base d’Epyc 9654. Et comme nous avons besoin de beaucoup moins d’énergie par processeur, nos 80 serveurs tiennent dans 4 étagères rack pour une consommation totale de 45,2 kWh, là où les 100 d’AMD doivent être répartis sur 7 étagères rack pour une consommation totale de 71,8 kWh.
Et cela reste même valable avec le tout dernier AMD Epyc 9754 qui offre 128 cœurs (256 threads) par puce. Pour exécuter la même charge de travail que précédemment, vous auriez besoin de 88 serveurs à répartir sur 6 étagères rack pour une consommation totale de 59,6 kWh. Notre prochain AmpereOne MX, qui le concurrence directement, fera bien moins.
Accessoirement, nous nous positionnons aussi sur les prix bas. Chez nos partenaires comme SuperMicro, Gigabyte, ASRock ou IEIT Systems, nos 80 serveurs coûtent 895 000 dollars, là où les 100 Epyc 9654 coûtent 1,79 million de dollars et les 88 Epyc 9754 coûtent 1,65 M$.
Et quel est l’avantage technique clé des processeurs AmpereOne comparativement aux processeurs x86 ?
Atiq Bajwa : Un niveau de performance constant. Cela est particulièrement important quand vous exécutez des applications en cloud et que vous payez pour des cœurs de processeurs avec la supposition qu’ils correspondent à une puissance de calcul constante.
Nous y parvenons notamment grâce à la répartition des circuits dans notre puce. Nos 192 cœurs, qui exécutent du code ARMv8.6, disposent chacun de 2 Mo de cache L2 (soit 384 Mo, un record). Ils sont répartis en 48 blocs de 4 cœurs chacun autour d’un cache L3 commun qui, lui, ne fait que 64 Mo. Ces blocs et ce cache sont gravés séparément avec une finesse de 5 nm dans les usines de TSMC. À cela s’ajoutent 32 contrôleurs gravés en 7 nm qui offrent 8 bus PCIe 5.0 (128 canaux) et 8 bus DDR5 (vers 16 barrettes DIMM externes pour un total de 4 To de RAM par socket).
Et tout ce petit monde est mis en réseau grâce à un circuit central, particulièrement efficace pour éviter les goulets d’étranglement. C’est lui qui fait en sorte que la puce fonctionne la plupart du temps à une fréquence constante.
Un point technique déterminant dans le maintien des performances est notamment la conception des pipelines qui permettent aux cœurs d’ingurgiter les instructions. Nous pensons avoir mis au point le meilleur moteur de prédiction de branchements du marché [la capacité à anticiper les prochaines instructions à récupérer en mémoire lorsqu’une opération de test de donnée commence à être décodée, N.D.R.].
Il permet aussi d’alimenter au bon moment uniquement la partie du circuit du cœur qui va servir à exécuter l’instruction, alors que nos concurrents alimentent tout le circuit pour être parés à toute éventualité. C’est-à-dire que nous prenons en charge une régulation thermique des cœurs extrêmement fine, et ce, dès les prémices du décodage des instructions.
Mais un processeur AmpereOne offre-t-il le même éventail de fonctions qu’un processeur x86 ?
Atiq Bajwa : Bien entendu ! Nous disposons des fonctionnalités de virtualisation nécessaires aux applications en cloud, mais aussi de chiffrement de la mémoire contre les cyberattaques. Ajoutons que nous prenons en charge les formats de données FP16 et BFLoat16 pour accélérer les calculs en IA et que nous avons des dispositifs, comme l’authentification des pointeurs ou l’étiquetage mémoire, qui sont des sécurités supplémentaires contre les exploits des malwares.
J’insiste sur l’étiquetage de la mémoire, qui est déterminant pour la fiabilité des applications en cloud. Il consiste à étiqueter de la même manière toutes les instructions d’une application qui accèdent à un espace mémoire virtuel dédié à cette application, de sorte à éviter un exploit – ou simplement un bug de programmation – qui permettrait de passer d’une mémoire virtuelle à l’autre. C’est-à-dire éviter que les instructions d’un malware, typiquement, s’exécutent dans la partie de la mémoire d’une application en production.
L’étiquetage de la mémoire est une nouveauté des processeurs ARM et il a été implémenté de sorte à consommer un minimum de latence. Sur d’autres processeurs, il existe aussi des systèmes de protection de la mémoire, mais ils imposent plus de latence à l’exécution des instructions et ils morcellent la mémoire en petites zones de taille fixe, ce qui nuit encore aux performances. Chez nous, toutes les tailles sont possibles. Par exemple, nous pouvons n’avoir qu’une seule étiquette pour une base de données de très grande taille.
Le problème est que tous les fabricants de processeurs prétendent être plus rapides que leurs concurrents. Pourquoi seriez-vous plus crédibles qu’eux ?
Jeff Wittich : Nous basons tous nos tests de performance sur des benchmarks standards de Spec.org dans des conditions les plus standards possibles, c’est-à-dire en évaluant des codes compilés avec les compilateurs Open source classiques. Nos concurrents évaluent les performances de codes compilés avec leurs propres compilateurs, mais ce sont des outils que les développeurs n’utilisent pas pour concevoir leurs applications. Et, force est de constater que ce sont aussi des outils qui sont parfois truqués pour n’obtenir des bons scores que dans le cadre des tests de performance de Spec.org !
Atiq BajwaDirecteur technique, design des processeurs, Ampere
Mais au-delà des vitesses de calcul maximum, consultez les diagrammes de nos résultats sur Spec.org et vous verrez surtout que, lors des tests, nous sommes les seuls à maintenir de manière quasiment constante la fréquence de 3,2 GHz. En fait, lorsque le diagramme montre une fréquence inférieure, c’est uniquement quand le protocole de test passe à l’algorithme suivant et qu’il met en veille une partie de nos circuits pendant ce laps de temps.
Donc, en considérant uniquement des compilateurs Open source standards et en prenant en compte la performance par énergie consommée, l’AmpereOne 192 cœurs obtient un indice SpecCPU 2017 de 2,53, avec un score de puissance de calcul de 694 pour 274 watts consommés.
Sur le même test, un Epyc 9654 atteint un indice de 1,68, avec une puissance de calcul de 638 pour 379 watts consommés. Nous sommes bien meilleurs. Et un Epyc 9754 atteint un indice de 2,2, avec une puissance de calcul de 733 pour 333 watts consommés. Là, ils sont plus performants en vitesse de calcul, mais au prix de bien plus de consommation d’énergie.
Précisons que nous proposons à l’heure actuelle plusieurs modèles d’AmpereOne (les watts indiqués sont ceux mesurés par les tests Spec.org) :
192 cœurs à 3,2 GHz pour 274W (5 555 $),
192 cœurs à 2,6 GHz pour 211W (5 237 $),
160 cœurs à 2,8 GHz pour 215W (4 760 $),
144 cœurs à 2,7 GHz pour 200W (4 284 $),
144 cœurs à 2,4 GHz pour 185W (3 967 $),
128 cœurs à 3,4 GHz pour 310W (4 760 $)
Et 96 cœurs à 3,7 GHz pour 293W (4 760 $).