Laurent Zylberman/Graphix-Images

Le ministère des Armées déclare la guerre au « Shadow AI »

Le ministère des Armées déploie l’intelligence artificielle générative à grande échelle pour éviter que ses agents ne soient tentés par les outils grand public. Le projet – évidemment souverain – s’appuie sur des modèles open weight et une infrastructure maîtrisée de bout en bout.

Le ministère des Armées parle peu. Une exception vient cependant de confirmer la règle. Lors d’une table ronde sur l’adoption et la concrétisation des promesses de l’IA en valeur réelle, Guillaume Vimont, responsable IA au ministère, a livré des confidences sur la manière dont l’institution a déployé l’IA générative à grande échelle.

L’ennemi Shadow AI

L’initiative a été lancée en 2023. Elle ne visait pas un déploiement auprès d’une population restreinte, mais voulait, au contraire, démocratiser l’intelligence artificielle auprès d’un grand nombre d’agents. Face au risque représenté par le Shadow AI (le recours non contrôlé à des assistants conversationnels grand public), le ministère a développé une alternative : GenIAl.intradef.

Le projet a été mené par le Centre d’expertise données et IA (CEDIA) du Secrétariat Général de l’Armement (SGA), bâti sur les fondations d’un Lab en IA qui fête cette année ses 10 ans.

« Nous avons souhaité mettre en œuvre une solution interne, souveraine, qui reproduit d’un point de vue fonctionnel ce qui était offert par des acteurs de la tech », témoigne Guillaume Vimont.

L’agent conversationnel, conçu en grande partie avec des composants open source (seuls des modèles open weight sont tolérés), était considéré comme un moyen de toucher un maximum de collaborateurs et de les acculturer aux usages de l’IA générative.

Cette approche expérimentale, conduite jusqu’en décembre 2023, devait également permettre d’identifier les besoins et d’affiner le périmètre fonctionnel. Le premier usage a porté sur le rédactionnel et l’analyse documentaire.

95 000 utilisateurs de GenIAl.intradef

Le CEDIA a par la suite fait évoluer son outil pour passer de l’agent à une plateforme de services d’IA générative. GenIAl.intradef intègre désormais OCR, traduction, transcription, synthèse de document et même génération d’image.

« Nous voulions mettre en œuvre une solution interne, souveraine, qui reproduit d’un point de vue fonctionnel ce qui était offert par des acteurs de la tech. »
Guillaume VimontResponsable IA, ministère des Armées.

En 2024, le ministère a commencé, de manière progressive, à passer à l’échelle. Une progressivité rendue nécessaire par les besoins en matière d’infrastructure, comme l’installation de GPU et de capacités de stockage.

L’ouverture officielle, à tous, a eu lieu en décembre 2024. Aujourd’hui, le ministère recense 35 000 utilisateurs. Mais cette base progresse de 1 000 utilisateurs supplémentaires par jour, chiffre Guillaume Vimont. Entre 60 000 et 95 000 utilisateurs sont visés.

Pour atteindre cet objectif, le ministère a dû augmenter ses capacités en matière d’infrastructure, au-delà de la seule acquisition de processeurs graphiques. Pour des raisons de sécurité, le responsable IA ne précise pas le nombre de GPU dans les datacenters de la Défense (ni le nom du ou des modèles utilisés).

« Ce type de plateforme génère beaucoup de données […] ce qui a justifié d’importants investissements et moyens sur ce projet. Nous collectons des millions d’enregistrements », confie cependant Guillaume Vimont qui évalue la volumétrie totale à plusieurs pétaoctets de stockage.

Un modèle de fondation de Défense à terme ?

À la dimension infrastructure s’ajoute le volet humain pour acculturer et accompagner, continue le responsable. Des ateliers et des cafés IA ont ainsi été organisés. Le CEDIA s’est aussi efforcé de « sincériser » (sic) sa communication sur les capacités réelles, afin de ne pas survendre l’IA et, en fin de compte, décevoir.

Sur la base du socle actuel (dit de « grande consommation »), le Centre en IA prévoit de réutiliser les briques existantes afin de développer des cas plus spécifiques pour des métiers.

La multimodalité est un autre axe de développement dans l’intention d’assurer que la plateforme reste à l’état de l’art. Le réentraînement des modèles est un autre chantier.

« Nous sommes plutôt, aujourd’hui, sur des approches dites de fine-tuning ou de spécialisation de modèles. L’objectif est que le modèle maîtrise mieux notre vocabulaire, et qu’il soit plus aligné avec notre représentation du monde à travers nos bases documentaires », explique Guillaume Vimont.

La spécialisation permet également d’adapter les modèles à des tâches spécifiques qui ne sont pas celles du quotidien dans la vie civile.

Les données captées grâce à l’inférence rendent possible une amélioration des performances, voire le développement d’un modèle de fondation propre à la défense. La piste est évoquée, mais sans être associée à un agenda.

Pour l’entraînement d’un LLM de fondation, la France pourrait aussi puiser dans les ressources de calcul du plus puissant supercalculateur classifié dédié à l’IA en Europe, dont elle disposera fin 2025. La commande de l’Amiad (agence ministérielle pour l’IA de défense) à Hewlett-Packard et Orange était annoncée en octobre dernier.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM