À la rencontre d’Alps, le second plus puissant supercalculateur d’Europe

Dans cette interview, Thomas Schulthess, directeur du CSCS et professeur de physique informatique à l’ETH, explique le développement de l’un des supercalculateurs les plus rapides au monde, l’Alps, déployé sur le sol suisse.

Le Centre national Suisse de Calcul Scientifique (CSCS) a construit et déployé en décembre un nouveau supercalculateur en collaboration avec Nvidia et HPE. La machine, appelée Alps, est déjà considérée comme le septième supercalculateur le plus puissant au monde, et le deuxième en Europe. Dans cette interview, Thomas Schulthess, directeur du CSCS et professeur de physique informatique à l’ETH [Eidgenössische Technische Hochschule, ou École Polytechnique Fédérale] de Zurich, dévoile les coulisses de ce projet.

Quel est le point de départ du projet Alps ?

Thomas Schulthess : Je commencerai par expliquer la différence entre le CSCS et Alps. Le CSCS est un centre avec des personnes. Le centre principal se trouve à Lugano, près du stade de football et du stade de hockey sur glace. Il a été fondé en 1991, bien avant mon arrivée, et c’est là que nous déployons et exploitons des supercalculateurs, dont le plus grand est Alps, qui a été mis en service en 2024. Avant Alps, nous avions déjà déployé de nombreux autres supercalculateurs.

Par exemple, nous avions Piz Daint, une machine hybride Cray XC40/XC50, qui était le premier supercalculateur basé sur des GPU en Europe. Nous l’avons déployé entre 2012 et 2013, soit à peu près en même temps que le supercalculateur Jaguar du Laboratoire national d’Oak Ridge aux États-Unis.

« Alps est un effort pour rassembler différents ordinateurs en une seule plateforme. »
Thomas SchulthessDirecteur du CSCS et professeur de physique informatique, ETH

L’une de nos particularités est que nous concevons, construisons et exploitons des supercalculateurs pour MétéoSuisse, le service météorologique suisse. Normalement, les services météorologiques gèrent leurs propres ordinateurs, mais dans notre cas, nous le faisons pour eux. C’est pourquoi nous entretenons une collaboration étroite avec MétéoSuisse depuis des décennies. Alps est un effort pour rassembler différents ordinateurs en une seule plateforme. Après Piz Daint, nous devions faire face à des enjeux de données et de flux de travail bien plus complexes en informatique scientifique. Nous cherchions des solutions pour faire évoluer le calcul intensif. C’est ainsi qu’est née une collaboration avec Cray, aujourd’hui HPE, puisque ce dernier a racheté Cray en 2019.

À l’époque, Cray poussait son système dans la direction d’une architecture de microservices, qui est parfois appelée architecture cloud-native. Pour nous, il s’agissait d’une très bonne évolution, mais elle s’est avérée très difficile, beaucoup plus difficile que ce que tout le monde avait prévu. 

Pour autant, nous avons décidé de suivre cette voie vers 2018-2019. Nous avons lancé un appel d’offres et Cray a remporté le contrat. Nous avons ensuite évalué deux architectures CPU + GPU concurrentes – celle de Nvidia et celle d’AMD – pour finalement décider de déployer les deux sur la machine. C’est ainsi qu’Alps a d’abord été construit avec le module Grace Hopper de Nvidia [qui, à ce moment-là, réunit à la fois un processeur ARM Grace et deux GPU H100, NDR]. Puis nous avons aussi déployé une importante partition de calcul basée sur les modules MI300A d’AMD [puce hybride contenant 24 cœurs x86 Zen4 et 228 cœurs de GPU CDNA3, NDR].

Comment Alps fonctionne-t-il aujourd’hui ?

Thomas Schulthess : Alps fonctionne aujourd’hui à partir de nœuds de calculs connectés à un très grand réseau Slingshot de HPE que nous pouvons partitionner. À chaque extrémité d’un câble réseau se trouve soit un dispositif de stockage, soit un nœud de calcul. Les nœuds de calcul sont soit basés sur GH200, soit sur MI300A. Nous avons également des nœuds à base de processeurs Epyc et dotés de GPU Nvidia A100 ou AMD MI250X. Dans ce dernier cas, l’intérêt est d’avoir une configuration similaire aux supercalculateurs LUMI (en Finlande) et Frontier (aux USA).

Nous prenons donc en charge une multitude d’architectures de calcul sur Alps. L’idée est de pouvoir servir différentes charges de travail. Et nous mettons l’accent sur le développement d’applications scientifiques. Nous pouvons donc mettre tous ces types d’architectures à la disposition des développeurs de logiciels.

Comment proposez-vous d’utiliser les ressources d’Alps ?

Thomas Schulthess : L’utilisation d’Alps est similaire à celle du cloud, avec différents types de services. Nous pouvons offrir de la puissance de calcul sous forme de machines virtuelles (IaaS). C’est ce que nous proposons aux structures de recherche, comme l’Institut Paul Scherrer qui fédère plusieurs grands programmes, parmi lesquels l’accès à un synchrotron (SSLS, ou la Source de Lumière Suisse), le laser à électrons libres (SwissFEL) et l’installation suisse de neutrons à spallation pour étudier les sciences du muon. Ils obtiennent donc une partition sur Alps et y font fonctionner leurs propres plateformes.

Dans d’autres cas, nous pouvons préconfigurer une plateforme pour l’IA, le supercalcul traditionnel, le climat ou la météo pour les utilisateurs. Ensuite, nous avons des utilisateurs ou des communautés qui gèrent leur propre fonction en tant que service, et nous leur fournissons une plateforme en tant que service. Nous participons également à de grandes expériences telles que le Square Kilometer Array, soit le niveau 2 suisse pour l’analyse des données du LHC ; une partition d’Alps fait partie du cluster de calcul mondial du LHC.

Et probablement le plus important aujourd’hui, une partition dédiée à MétéoSuisse, avec le nouveau modèle de leur système de prévision numérique ICON. Auparavant, nous avions un supercalculateur entier dédié à cette application.

Le fait qu’ICON fonctionne désormais dans une partition signifie-t-il qu’Alps a une taille très importante ?

Thomas Schulthess : Eh bien, cela montre la taille, mais aussi l’étendue de ce que nous pouvons couvrir. Traditionnellement, un supercalculateur est un système unique. Il peut être hétérogène – par exemple, Piz Daint est hétérogène en ce sens qu’il a des nœuds multicœurs, des nœuds accélérés par GPU. Il peut être hétérogène, mais il a été conçu comme un système uniforme en ce sens qu’il s’agit d’une solution unique, en matière d’environnement de programmation et d’autres choses de ce genre.

D’ordinaire, les utilisateurs doivent s’adapter à un supercalculateur en particulier. Maintenant, sur Alps, nous pouvons créer des partitions avec un environnement logiciel adapté aux utilisateurs.

Qui finance le CSCS et Alps ?

Thomas Schulthess : Alps, en tant qu’infrastructure de recherche, est financé par le domaine des EPF. Le CSCS est une unité de l’ETH Zurich, où je suis également professeur de physique. L’ETH Zurich et l’EPFL, l’école sœur de Lausanne, ainsi que quatre laboratoires nationaux sont réunis au sein de ce que l’on appelle le domaine des EPF. 

« Nous sommes une infrastructure financée par des fonds publics, même si nous travaillons avec des tiers et que nous obtenons un recouvrement total des coûts, nous sommes toujours subventionnés. »
Thomas SchulthessDirecteur du CSCS et professeur de physique informatique, ETH

L’ensemble du domaine est financé par le Secrétariat d’État à l’Éducation, à la Recherche et à l’Innovation – c’est notre principale source de financement. Mais la partie consacrée à MétéoSuisse est financée par MétéoSuisse et par toutes ses sources de financement. Nous devons donc maintenir une séparation claire. Nous bénéficions également de fonds issus de tiers, comme la plupart des infrastructures de recherche. Cela représente environ 20 % des investissements.

Parce que nous sommes une infrastructure financée par des fonds publics, même si nous travaillons avec des tiers et que nous obtenons un recouvrement total des coûts, nous sommes toujours subventionnés. Et les subventions ne sont pas extensibles. Nous ne pouvons pas avoir d’activités commerciales sur notre infrastructure, bien que nous puissions nous engager dans une collaboration de recherche avec des sociétés commerciales. Et lorsque nous collaborons avec des entreprises, celles-ci doivent financer les coûts de recouvrement de ces collaborations.

Qu’en est-il de votre participation au consortium OpenCHAMI ?

Thomas Schulthess : Le consortium OpenCHAMI comprend actuellement cinq partenaires. Los Alamos National Laboratory, NERSC (National Energy Research Scientific Computing Center), Lawrence Berkeley National Laboratory, University of Bristol, HPE et CSCS.

Le consortium développe l’infrastructure de gestion des systèmes du futur. Alps est un cas d’usage essentiel dans ce développement. C’est pourquoi le logiciel de gestion de système continuera d’évoluer au cours des deux ou trois prochaines années, ici au CSCS, mais aussi à Bristol, à Los Alamos et à Berkeley.

Pour approfondir sur HPC