Des défis technique à la mesure du projet
Comme l'explique Jean Gonnort, le chef de projet simulation numérique au CEA DAM, la conception de Tera 100 pose des problèmes uniques. "Il ne s'agit pas avec cette machine de battre un record. Tera 100 n'est pas une machine de recherche, c'est une machine de production qui par contrat devra au minimum tourner à 90% de sa capacité pendant 95% du temps, sous peine de pénalités." Pour atteindre un tel objectif, le CEA et Bull doivent donc résoudre des problèmes nouveaux.
" Tera 100 est la 3e machine du programme Tera" explique ainsi Jean Gonnord. "Pour la première, on ne savait pas si on arriverait au Tflops. Ça a été fait en 2001 en utilisant le parallèlisme massif. Nous avons alors buté sur la question des débits et des quantités de données. Aucun OS ne savait gérer avec la fiabilité nécessaire les volumes de données générés. On a donc du travailler en R&D avec les laboratoires américains Lawrence Livermore pour spécifier Lustre. Lustre est aujourd'hui dans les mains de Sun mais reste ouvert et les specifications et évolutions sont faites par un board dans lequel on a un poids non négligeable. Pour Tera 10, il nous a fallu développer des architectures d'entrée/sorties optimales pour Lustre. Bull a fait des progrès non négligeables en la matière avec Tera10. Ce supercalculateur a établi un certain nombre de records d'entrées/sorties. Aujourd'hui c'est un problème que nous considérons comme maitrisé."
Tera 100 pose toutefois une autre classe de problèmes à commencer par celui de la consommation énergétique. " Certes les futures puces multi-cœurs offrent une perspective de réduction de la consommation, mais les travaux des fabricants de processeurs ne sont pas suffisant" explique Jean Gonnort. Il s'agit donc de mener une chasse au gaspi sur l'ensemble des équipements composant la machine. "Un autre problème pour nous est lié à l'augmentation de la complexité au niveau hardware : Tera 100 aura trois fois plus de composants que tera10, ce qui pose des problèmes de complexité et de fiabilité non négligeables pour une machine de production qui doit travailler presque tous les jours sans interruption". Pour résoudre ce problème CEA et Bull vont travailler en R&D sur des architectures logicielles tolérantes aux pannes. Comme les précédents cluster Tera, ces architecture s'appuieront sur des systèmes d'exploitation libre (jusqu'alors, les cluster Tera s'appuient sur Red hat Linux).
Une première pour la R&D européenne
La collaboration R&D à cette échelle est d'ailleurs une première en Europe, la France reprenant là les principes qui ont fait le succès de l'industrie de l'informatique à haute performance aux Etats-Unis qui profite à plein des subventions et autres "grants" de la NSF et du département à l'énergie. Selon Jean Gonnord, " C'est une première de lancer un programme de R&D en parallèle d'un cluster. Nous n'achetons pas cette machine sur étagère. Cette fois le challenge est suffisamment fort pour nécessiter une R&D importante impliquant nos équipes et celles d'un constructeur".
Pour ce programme, le CEA avait fixé pour contrainte que la R&D soit menée en Europe et que la propriété intellectuelle générée par le programme soit partagée. Ces conditions ont, semble-t-il, refroidi l'enthousiasme des constructeurs américains, dont la plupart mènent leurs recherches sur le calcul à haute performance aux Etats-Unis, souvent dans le cadre de programmes de recherche fédéraux américains. Ce principe ne devrait d'ailleurs pas rester exclusif au CEA, puisque le programme européen Prace prévoit lui aussi de tels partenariats de recherche.
Reste que côté CEA, on se félicite à être les premiers à avoir noué un tel accord et qu'on se réjouit surtout d'avoir réussi à mettre en place un programme de R&D, qui permettra à des chercheurs européens de haut niveau de mener des recherches sur le calcul scientifique sur le territoire européen. La collaboration avec Bull devrait ainsi assurer que l'Europe disposera d'au moins une entreprise capable de répondre à la demande HPC très haut niveau.















