Supercalculateurs : les Etats-Unis reprennent l'avantage dans la course à l'exaflops
Le département US de l'énergie a mis un terme à cinq années de domination chinoise du Top 500 des supercalculateurs. Ses clusters Summit et Sierra sont motorisés par des puces Power d'IBM et par des accélérateurs NVidia V100. Ces derniers jouent un rôle majeur dans l'explosion des performances et l'amélioration de l'efficacité énergétique.
Comme prévu, le dernier classement Top500 des supercalculateurs mondiaux a été marqué par le retour des grands clusters américains à la tête du palmarès mondial.
Après cinq ans de domination chinoise, le département de l’énergie américain vient de placer deux de ses clusters aux deux premiers rangs mondiaux. Les supercalculateurs Summit (143,5 PFlop/s RMAx au benchmark LinPack) et Sierra (94,6 PFlop/s), dont la conception a commencé à la fin 2014, devancent sur le podium le Chinois Sunway TaihuLight (93 PFlop/s).
La particularité de ces trois clusters est qu’ils ne sont pas motorisés par des puces Intel. Les deux clusters américains s’appuient sur des nœuds Power AC922 et S922LC à base de puces Power 9 dotés d’accélérateurs NVidia Volta GV 100, tandis que le cluster chinois est propulsé par des processeurs Sunway SW26010, des puces massivement multicœurs (260 cœurs) utilisant un jeu d’instruction RISC développé dans l’empire du milieu.
Le premier cluster européen est le supercalculateur helvète Piz Daint assemblé par Cray pour le centre de Supercalcul National Suisse (avec des puces Xeon v3 et des accélérateurs NVidia P100), tandis que le premier supercalculateur français n’apparaît qu’au 18e rang mondial. Il s’agit de Tera-1000-2, un cluster Sequana X1000 de Bull, propulsé par des Xeon Phi Intel (une architecture depuis abandonnée par le fondeur).
Les GPU dopent l’efficacité énergétique des supercalculateurs
L’un des points notables de la dernière édition du classement Top500 est la nette amélioration de l’efficacité énergétique des meilleurs clusters. Les clusters Summit et Sierra délivrent ainsi des puissances respectives de 14,66 TFlops/KW et de 12,72 TFlops/kW, des chiffres à comparer aux 6,05 TFlops/kW de Sunway TaihuLight ou aux 3,76 TFlops/kW de Tera-1000-2.
Cette excellente performance est sans nul doute à mettre au crédit des accélérateurs NVidia V100 utilisés dans les deux clusters US. Tous les clusters dans lesquels ces accélérateurs sont présents offrent en effet un ratio PFlops/kW supérieur à 11. Le pire cluster du Top20 en la matière est le vieux supercalculateur japonais K — entré au premier rang du classement Top500 en 2011 — dont le ratio PFlops/kW s’établit à 0,83.
Avec ses accélérateurs, NVidia a réussi à se rendre incontournable dans le monde du calcul scientifique. Le constructeur a su combiner l’efficacité de son architecture avec un environnement de développement solide pour s’imposer sur ce marché. Et le classement publié lors de Supercomputing confirme l’avantage technologique pris par la firme.
IBM reprend l’ascendant sur Intel en matière de performances
Le fait que les deux clusters de tête combinent des puces Power9 et des puces NVidia ne surprendra personne. Au cours des deux dernières années, IBM et NVidia ont collaboré étroitement pour que les puces de Big Blue s’intègrent avec le bus NVLInk des puces NVidia. Cette intégration permet de maximiser les performances des systèmes Power/NVidia en offrant une bande passante sans égale entre les puces IBM et celles du spécialiste de l’accélération graphique.
Summit avec ses 6 accélérateurs NVidia par nœud est 15 % plus efficace en matière de performance par watt que Sierra qui n’utilise que 4 accélérateurs NVidia par nœud et il est 21,6 % plus efficace que le meilleur cluster à base de puces Xeon/NVidia, le cluster japonais ABCI (dont chaque nœud associe deux puces Xeon Gold avec 4 accélérateurs NVidia V100).
Dans la pratique, cela veut aussi dire qu’à nombres d’accélérateurs équivalents, Sierra et ses puces Power9 est environ 5,5 % plus efficace qu’un cluster Xeon. Cela peut paraître négligeable, mais aux échelles dont on parle (plusieurs centaines de milliers de cœurs CPU), cela signifie qu’un cluster Intel d’une puissance informatique équivalente à Summit consommerait 400 kW de plus qu’un cluster Power, et c’est sans compter les coûts induits en matière de refroidissement, de connectivité (il faut relier plus de nœuds au réseau pour une performance équivalente) et d’espace de datacenter. Pour mémoire, Sierra comporte 4474 nœuds, ce qui veut dire qu’un cluster Intel équivalent demanderait près de 260 serveurs additionnels soit près de 25 racks de 42U en comptant les équipements de connectivité.