Supercalcul : Jean Zay se modernise pour l’IA en un temps record
Suite à la volonté française d’accélérer l’accès aux ressources pour les recherches en IA, le supercalculateur de l’IDRIS se dote de 14 nouveaux racks qu’Eviden est parvenu à fournir en à peine quelques semaines.
Déployé en un temps record. C’est durant ce mois d’avril que le supercalculateur Jean Zay, installé à l’IDRIS, laboratoire du CNRS, est mis à jour avec 364 nœuds de calcul plus modernes. Soit sept mois à peine après que GENCI – l’opérateur public responsable de l’achat de ce type d’équipements – a lancé son appel d’offres. Et 15 semaines seulement après que le bon de commande a été signé avec le fournisseur d’infrastructures HPC Eviden.
« Normalement, il se passe un an entre le début d’un appel d’offres et la signature du bon de commande. Quant au déploiement, il prend généralement six mois, alors que nous tablons ici sur une exploitation des nouvelles ressources de calcul dès fin mai. Tout le monde a mouillé la chemise, à tous les niveaux. C’est du jamais vu » se félicite Stéphane Requena, le directeur technique du GENCI.
Il faut dire que l’enjeu avait été fixé par les plus hautes sphères de l’État. En juin dernier, lors du salon Vivatech, le Président de la République avait annoncé un nouvel investissement de 40 millions d’euros pour « renforcer les capacités de calcul de la France et accélérer le développement de l’IA générative ».
Il s’agissait alors de sonner le départ d’une nouvelle étape de modernisation dans le plan national France 2030, qui vise à « propulser la France parmi les champions de l’intelligence artificielle », tel qu’Emmanuel Macron l’a édicté en 2018. C’est dans le cadre de ce plan que Jean Zay est entré en opération il y a quatre ans et demi, avec l’objectif de mettre à la disposition des chercheurs français – et des startups – des moyens de calcul pour la recherche sur l’IA et ses grands modèles de langage.
L’enjeu de calculer une déferlante de projets d’IA
« L’Institut de Développement et des Ressources en Informatique Scientifique [IDRIS] du CNRS a pour habitude d’héberger des projets de simulation, notamment sur le climat, sur l’astrophysique. Mais nous avions vu arriver il y a quelque temps cette vague de l’IA dans les laboratoires qui commençaient à tous acheter des GPU, pour équiper leurs ordinateurs », raconte Adeline Nazarenko, Directrice de CNRS Sciences informatiques.
« Nous nous sommes dit que la recherche ne pouvait pas avancer ainsi, que nous avions besoin d’une politique nationale. C’est ainsi que l’IDRIS a commencé à héberger des projets d’IA », ajoute-t-elle.
En l’occurrence, l’IDRIS ne fait pas qu’héberger les calculs. Le CNRS apporte aussi tout l’accompagnement nécessaire aux chercheurs pour porter leurs projets sur un supercalculateur. Initialement, cette équipe support était composée d’une dizaine de personnes. Mais la demande pour les projets d’IA est telle qu’il a fallu doubler l’effectif.
« Cette dynamique a fonctionné mieux que nous l’espérions. En plus des nouveaux laboratoires qui veulent entraîner des modèles, nos utilisateurs historiques veulent aussi soumettre les données des simulations qu’ils ont précédemment calculées à une IA. En 2023, nous avons accueilli plus d’un millier de projets en IA sur Jean Zay. Aujourd’hui, on nous en soumet une centaine par mois. Il devenait urgent d’augmenter nos capacités de calcul. », dit Adeline Nazarenko.
Adeline NazarenkoDirectrice de CNRS Sciences informatiques.
« Nous nous attendons à voir le nombre de projets doubler rapidement et aussi au fait qu’ils aient une taille de plus en plus importante. Outre les nouveaux modèles, il y a aussi en ce moment une forte activité qui consiste à reprendre des modèles existants pour les réentraîner sur d’autres langues ou les spécialiser sur certains jeux de données métier, comme la santé ou le droit », indique pour sa part Stéphane Requena.
Selon Stéphane Requena, l’objectif de la modernisation est par exemple de pouvoir entraîner un modèle complet sur 400 GPU en deux semaines, alors qu’il fallait compter quatre mois en 2022. Avant l’actuelle modernisation, le supercalculateur Jean Zay disposait d’une puissance de calcul de 36,8 pétaflops, fournie par 3000 GPUs. La mise à jour ne vise pas à étendre la quantité de nœuds de calculs, mais à remplacer les moins rapides par des modèles plus performants. La nouvelle version de Jean Zay devrait atteindre une puissance globale de 125,9 Pflops.
« Nous décommissionnons 880 GPUs Nvidia V100 pour les remplacer par 1456 Nvidia H100, ce qui doit multiplier notre puissance de calcul par 3,5 sur les simulations et par 13 sur l’IA (qui utilise une précision réduite). Notre objectif était de rester dans une enveloppe énergétique de 1,5 Mégawattheure pour des serveurs très denses, refroidis à l’eau chaude (36 ° Celsius en entrée) », dit le directeur technique de GENCI, qui se félicite par ailleurs que la chaleur du supercalculateur soit récupérée pour chauffer 1000 logements sur le Plateau de Saclay, en région parisienne, là où est installé Jean Zay.
Eviden seul capable de tenir des délais aussi serrés
Dans l’appel d’offres formulé en octobre 2023, il y avait surtout le critère de tenir des délais de livraison serrés. Et c’est justement celui-ci qui a fait pencher la balance pour le fournisseur Eviden – alias la branche supercalcul d’Atos – alors que Jean Zay avait initialement été construit à partir d’équipements HPE.
Eviden livre ainsi 14 racks de calcul BullSequana XH3000 qui intègrent un total de 364 serveurs bi-socket Intel Xeon Sapphire Rapids 48 cœurs. Ces serveurs disposent chacun de 512 Go de RAM, 4 GPUs H100 SXM5 dotés de 80 Go de mémoire et 4 ports Infiniband 400 Gbit/s fournis par autant de cartes ConnectX-7 de Nvidia.
Les serveurs XH3000 sont interconnectés en réseau avec une topologie DragonFly de liens 400 Gbit/s. En substance, il s’agit de constituer des petits groupes de serveurs pleinement reliés entre eux et de relier chacun de ces serveurs à un autre petit groupe de serveurs. Cette topologie permettrait de réduire efficacement le coût des interconnexions réseau tout en facilitant l’extension à volonté du nombre de serveurs.
Ces nouveaux racks BullSequana s’ajoutent aux serveurs HPE qui restent en place et qui offrent pour leur part 416 GPUS Nvidia A100, ainsi que 1832 GPUS Nvidia V100.
Stéphane RequenaDirecteur technique du GENCI
Autre point important, le stockage est, lui, entièrement revu pour proposer des baies capables de soutenir la bande passante des nouveaux GPU. Eviden fournit ici des équipements DDN sur deux niveaux d’accès.
Le premier niveau, directement connecté aux nœuds de calcul, est constitué uniquement de SSD et apporte une capacité de 4,3 Po avec une bande passante globale de 1,5 To/s. Le second niveau, qui stocke les résultats des calculs, se compose de disques durs pour une capacité totale de 39 Po, avec une bande passante globale de 300 Go/s. À cela s’ajoute une bibliothèque de bandes magnétiques pour archiver automatiquement jusqu’à 100 Po de données.
« Notre partenariat avec Eviden ne s’arrête pas là. Nous travaillons ensemble à la mise en place cette année du projet CLUSSTER, ou Cloud Unifié Souverain de Services, de Technologies et d’infrastructuRes. Il s’agit de bâtir une offre de cloud souverain fédérant des partenaires publics et privés pour l’IA, au-delà de Jean Zay » dit Stéphane Requena.
« Jean Zay accueillera toujours l’apprentissage ou le fine tuning de modèles pour les travaux de recherche ouverte – c’est-à-dire qu’il le fera gratuitement dès lors que les résultats sont ensuite partagés publiquement. Et d’autres supercalculateurs installés ailleurs, chez OVHcloud et l’hébergeur de supercalculateur Qarnot par exemple, s’occuperont des traitements privés. Il s’agira principalement de traitements d’inférence à usage commercial ou de recherches confidentielles, ce que Jean Zay ne fait pas », précise-t-il.