ULA/SES

L’Agence Spatiale Européenne prépare le lancement imminent de son RAG

Le projet « ASK » s’appuie sur Mistral et sur une infrastructure souveraine. Il doit optimiser la recherche et la synthèse d’informations, d’abord scientifiques et techniques. Décollage prévu courant 2025, mais des bénéfices seraient déjà visibles.

Le compte à rebours est lancé. L’Agence spatiale européenne (ESA) va se doter d’une « plateforme » d’intelligence artificielle générative, baptisée « ASK ESA », qui lui permettra de construire et de déployer rapidement des assistants et des agents.

Une IA en local sur une infrastructure maison

Le projet est coconstruit avec l’ESN DXC. Technologiquement, la plateforme s’appuiera sur les LLM de Mistral AI et sur NVIDIA.

Elle sera déployée en local, dans « un environnement privé hautement sécurisé » (dixit le communiqué de l’agence) également pour assurer la confidentialité des données.

Concrètement, ASK ESA sera hébergé sur une infrastructure interne (« ESA Cloud ») gérée par la division infrastructure de l’agence (ESAIT). Cette infrastructure est physiquement hébergée dans des locaux de l’ESA, dans deux centres de données en Allemagne et en Italie.

« Cette configuration permet d’avoir un contrôle total et de garder la souveraineté sur les données en s’assurant qu’elles restent au sein de l’infrastructure de l’Agence », explique Charles Antoine Poncet, IT Portfolio manager & AI leader à l’ESA, dans un échange avec LeMagIT.

Décollage en 2025 avec un nouveau LLM

« En appliquant la méthode agile, nous sommes rapidement passés d’un prototype expérimental à une maturité de production », se réjouit le responsable.

La phase de prototypage a débuté à la fin du quatrième trimestre 2023. ASK ESA a ensuite été approuvé en novembre 2024 par le comité directeur numérique de l’ESA (ESA Digital Steering Committee) en tant que RAG (Retrieval Augmented Generation) officiel de l’agence – puisqu’il s’agit bien d’un RAG.

« Pour la version finale, l’ESA passera au modèle propriétaire Mistral Large 3, qui est doté de capacités multimodales ».
Charles Antoine PoncetIT Portfolio manager & AI leader à l’ESA

La phase de mise en œuvre a ensuite commencé en ce début 2025. L’outil devrait être pleinement opérationnel d’ici le troisième trimestre 2025.

À cette date, l’ESA changera également de grand modèle de langage. « Pour la phase de prototypage, des petits modèles de Mistral (v3) public et open weigth ont été utilisés, principalement parce qu’ils nécessitent moins de puissance de calcul et qu’ils sont faciles à déployer », précise Charles Antoine Poncet. « Pour la version finale, l’ESA passera au modèle propriétaire Mistral Large 3, qui est doté de capacités multimodales ».

Un des intérêts d’un RAG est justement de pouvoir changer de modèle plus simplement.

Le réservoir documentaire du RAG en cours de remplissage

Grâce à sa modularité, ASK ESA doit, à terme, permettre à « tous les services » d’accéder plus efficacement à d’importants volumes de documents et de données. C’est en tout cas l’objectif fixé par l’Agence.

Mais pour l’instant, ASK ESA indexe surtout des fichiers de niveau de sensibilité modéré (PL1 dans la classification de l’ESA), confie Charles Antoine Poncet. Il s’agit de documents comme les normes spatiales (ECSS), les comptes rendus de conférence, les documents techniques, les archives, les résumés exécutifs et les rapports finaux des documents de recherche.

D’un point de vue administratif et interne, s’y ajoutent les politiques, les directives, les règles et les règlements.

Le nombre de documents indexés n’est pas faible, mais il n’est pas énorme non plus. En tout cas pas encore. « La qualité des documents a été un élément essentiel de la phase de prototypage », justifie Charles Antoine Poncet, « de nombreuses recherches montrent une corrélation directe [entre la qualité des données] et la pertinence des résultats. Par conséquent, l’ESA a opté pour un processus de curation et de nettoyage rigoureux lors de l’ingestion des documents, ce qui conduit à un nombre modéré de documents ingérés pour l’instant ».

Pour donner un ordre de grandeur, chaque prototype a ingéré en moyenne 300 à 400 documents. Avec 20 prototypes mis en œuvre courant 2024, le RAG actuel indexe environ 12 000 documents.

Une jolie base de départ, qui « devrait augmenter de façon exponentielle lorsque ASK ESA sera opérationnel, car l’ingestion dépendra alors des utilisateurs », anticipe Charles Antoine Poncet.

Quels sont les cas d’usages de la GenAI de l’ESA ?

Mais quid des cas d’usage ? Les prototypes ont montré que l’application répondait particulièrement bien aux questions scientifiques et techniques.

« Par exemple, les questions typiques d’un ingénieur en matériaux pourraient être : “Qu’est-ce qui cause la corrosion sous contrainte ?”, “Qu’est-ce que la méthode maximax ?”, “Trouver des documents sur les stratégies d’arrimage”, “Que signifie LEO ?”, “Qu’est-ce qu’ADEO”, etc. », illustre Charles Antoine Poncet.

L’ESA étudie bien la possibilité d’un chatbot pour des questions administratives (RH, finances, etc.), mais cet usage nécessiterait des approbations supplémentaires du fait qu’ils touchent des données sensibles et/ou privées. Dans ces cas, la mise en conformité avec l’IA Act pourrait s’avérer plus compliquée et les LLMs pourraient avoir des biais dans ces domaines, ce qui impose d’autres mécanismes de contrôle et de suivi.

Déjà des bénéfices

Il n’en reste pas moins que des bénéfices (ROI) seraient déjà visibles. « Pour l’ingénierie des matériaux, ASK ESA permet d’économiser en moyenne entre 30 et 180 minutes de recherche par semaine », chiffre Charles Antoine Poncet.

Dans la prochaine phase (prévue début 2026), des documents à diffusion plus restreinte (PL2) intégreront également le RAG. « Cette étape contribuera à libérer l’accès à une grande volumétrie de documents liés à l’espace, qui ont une très forte valeur informative », anticipe-t-il.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM