Bilan environnemental des LLM : ce que révèle l’étude de Mistral AI
Le fournisseur de LLM français entend offrir davantage de transparence à ses clients en commençant par l’analyse du cycle de vie de son plus gros LLM, Mistral Large 2. L’exercice met en lumière les défauts des estimations des concurrents… et de celles de Mistral AI.
En matière d’empreinte carbone, Mistral AI veut faire mieux que Meta, Google, OpenAI, Anthropic ou encore IBM. En ce sens, il a dévoilé le 22 juillet le bilan environnemental de son plus grand modèle de langage à ce jour, Mistral Large 2.
Contrairement à ses petits camarades qui ont développé leur propre formule de calcul à partir de la littérature scientifique disponible, Mistral AI a fait appel au cabinet de consultance Carbon 4 (fondé par Jean-Marc Jancovici également à l’origine du Shift Project) et l’Ademe. Car le fournisseur affirme ne s’être pas concentré uniquement sur le calcul des émissions CO2 à l’entraînement. Il a souhaité analyser l’impact environnemental de son modèle sur l’ensemble de son cycle de vie. L’étude a été revue par Resilio et Hubblo, deux autres cabinets spécialisés dans l’audit environnemental.
Après dix-huit mois d’utilisation, au mois de janvier 2025, l’entraînement de Mistral Large 2 aurait émis 20,4 kilotonnes équivalent CO2 et consommé potentiellement 281 000 mètres cubes d’eau. Très peu de fournisseurs de LLM ont affiché une consommation d’eau à l’entraînement. Toute comparaison avec d’autres fournisseurs semble hasardeuse. Hormis dire que l’entreprise s’est appuyée sur le standard WCP (ISO 14046:2014). La startup révèle toutefois une métrique inédite : l’épuisement des ressources abiotiques.
Les ressources abiotiques sont des « ressources non vivantes se trouvant naturellement dans l’environnement ». Ici, la mesure « quantifie l’épuisement des métaux, minéraux » et éléments naturels pendant la phase d’entraînement. Mistral Large 2 aurait épuisé 660 kg équivalent antimoine (ou stibium, SB eq), un élément chimique rare dans la nature, utilisée ici comme unité de mesure. Comme c’est la première fois que LeMagIT rencontre cette mesure, il semble difficile pour l’instant d’établir des comparaisons. D’autant que Mistral AI la considère comme optionnelle.
À l’inférence, Mistral Large 2, une fois embarqué dans l’assistant Le Chat, consommerait 1,14 gramme équivalent CO2, 45 millilitres d’eau et 0,16 mg SB eq pour une réponse de 400 tokens (une page de texte, selon le fournisseur). À titre de comparaison, cela correspondrait aux émissions de 10 secondes de streaming vidéo aux États-Unis (55 secondes en France), à l’eau nécessaire pour faire pousser un « petit radis rose » et aux ressources suffisantes pour produire une pièce de 2 centimes d’euro.
Le bilan environnemental à la requête, l’arbre qui cache la forêt
À titre de comparaison, en juin 2025, Sam Altman, cofondateur et CEO d’OpenAI, avait affirmé dans un billet de blog que chaque requête de ChatGPT « consomme environ 0,34 wattheure, soit à peu près ce qu’un four consomme en un peu plus d’une seconde ou une ampoule à haut rendement en quelques minutes. Elle [une requête] utilise également environ 0,000 085 gallon d’eau [0,32 ml, N.D.L.R.], soit environ un quinzième de cuillère à café ».
L’étude menée pour le compte de Mistral AI semble prouver les dires de son homologue concernant l’impact « marginal » de l’inférence par rapport à celui de l’entraînement. Mais comme OpenAI, Mistral AI ne multiplie pas ce bilan de consommation à la requête par le nombre de prompts reçus sur la même période. Dans le cas de Mistral Large 2, avec la même configuration, à l’inférence il faudrait presque 18 milliards de réponses de 400 tokens de long (17,9 mds exactement) - 7 200 milliards de tokens – pour égaler le bilan CO2 estimé de son entraînement.
« L’usage des LLM (de manière conservative) est passé de 100 milliards de tokens par mois à plus de 2 000 milliards de tokens par mois en l’espace d’un an selon OpenRouter ».
Dr. Sasha LuccioniResponsable Climat et IA, Hugging Face
Il s’agit là d’une extrapolation de la part du MagIT. Les statistiques, remontées par la plateforme OpenRouter, tendent à indiquer que l’API Mistral Large 2407 (la première variante de Mistral Large 2) aurait généré 355 millions de tokens entre le 23 avril 2025 et le 22 juillet inclus. Mistral Large 2411 (une autre variante), sur la même période, aurait généré 324 millions de tokens. Mais pour cela, les deux checkpoints ont traité des milliards de tokens en entrée. Toujours selon les données d’OpenRouter, en prenant en compte les entrées et les sorties, l’API Mistral Large 2411 aurait vu passer en moyenne 120 millions de tokens quotidiennement sur la période. Cela représente approximativement 11 milliards de tokens durant ces 91 jours (3 mois et 1 jour). Dans un scénario figé, il faudrait plus de 163 ans avant que Mistral Large 2411 traite 7 200 milliards de tokens.
Or, cette hypothèse se heurte de plein fouet à la réalité. « L’usage des LLM (de manière conservative) est passé de 100 milliards de tokens par mois à plus de 2 000 milliards de tokens par mois en l’espace d’un an selon OpenRouter », s’exclame Dr Sasha Luccioni, responsable du climat et de l’IA chez Hugging Face. Pour le mois dernier, OpenRouter attribue le traitement de 1 650 milliards de tokens à Claude Sonnet 4.
ChatGPT pourrait consommer 850 MWh par jour
Auprès d’Axios, OpenAI a révélé que les utilisateurs de ChatGPT envoient plus de 2,5 milliards de prompts par jour. Avec les informations transmises par Sam Altman, l’on pourrait naïvement conclure que ChatGPT consomme 850 MWh tous les jours, l’usage quotidien en électricité de 28 800 foyers américains en 2022 (EIA), et 800 mètres cubes d’eau par jour, l’équivalent de la consommation journalière de 5 400 habitants en France en 2021 (France Eau).
Tant que ces fournisseurs ne communiqueront pas d’eux-mêmes le volume total de requêtes ou de tokens traités à l’inférence, il sera réellement difficile de se faire une idée de l’empreinte de cette phase présentée comme peu énergivore.
L’empreinte carbone des serveurs IA encore difficile à évaluer
Mais un autre détail – et non des moindres – interpelle. L’entraînement de Mistral Large 2 (123 milliards de paramètres) aurait émis dix fois plus que celui de Llama 4, un modèle doté de 400 milliards de paramètres (20 400 tonnes CO2eq vs 1 999 tonnes CO2eq). L’équivalent de 95 millions de kilomètres parcourus en voiture selon le relevé fait par Le Monde sur le calculateur de l’Ademe.
La startup a présenté plusieurs versions de son modèle, ce qui implique plusieurs séries d’entraînement. L’autre explication se trouve dans cet extrait du communiqué qui accompagne les résultats : « Ces chiffres reflètent l’ampleur de la puissance de calcul nécessaire au développement de l’IA, qui mobilise un grand nombre de processeurs (GPU) souvent situés dans des régions où l’électricité est fortement carbonée et parfois soumise à un stress hydrique. Ils incluent également les émissions amont – c’est-à-dire les impacts liés à la fabrication des serveurs, par exemple – et pas uniquement la consommation d’énergie ».
En clair, Mistral AI a pris en compte l’intensité carbone estimée des infrastructures qu’elle a exploitées pour l’entraînement de son LLM, et les émissions amont. Seul IBM avait jusqu’alors fourni une mesure basée sur l’intensité carbone, en sus de l’eau consommée lors de l’entraînement du LLM. Mais, de manière déclarative, le fournisseur français semble être le premier à prendre en compte dans son calcul l’impact de la fabrication des serveurs.
« L’impact de [la fabrication des GPU] n’est donc qu’estimé à ce stade, alors même que cela représente une part significative de l’impact total ».
Étude Mistral menée avec Carbon 4 et l’Ademe
Ce point est d’ailleurs l’une des limites de l’étude menée avec Carbon 4 et l’Ademe. « […] En l’absence de normes établies pour évaluer l’empreinte environnementale des LLM, il reste difficile d’effectuer des calculs précis. Par exemple, l’on ne dispose pas à l’heure actuelle d’une étude fiable sur le cycle de vie des GPU », informe Mistral AI. « L’impact de leur fabrication n’est donc qu’estimé à ce stade, alors même que cela représente une part significative de l’impact total ».
À la connaissance du MagIT, Google a publié une préversion d’une étude concernant le cycle de vie de ses TPU cette année. Elle conclut temporairement que suivant les situations, l’utilisation de ces puces IA représente 70 à 90 % des émissions, quand leur fabrication représente « moins de 25 % de ce total » et leur implémentation dans un centre de calcul, environ 5 %. L’étude révèle surtout que la consommation d’énergie des TPU varie beaucoup suivant la charge de travail et les conditions d’utilisation (température du data center, température extérieure, lot de fabrication, etc.). D’où la création d’une métrique d’intensité carbone spécifique (Compute Carbon Intensity, ou gramme équivalent CO2 par exaFLOP).
En réponse à la question d’un internaute qui demandait si Nvidia réalisait une étude concernant le cycle de vie de ses GPU en 2023, le géant se réfugiait derrière sa nature « fabless ». Un porte-parole jugeait la tâche « pratiquement impossible » au vu du nombre de partenaires du groupe.
Néanmoins, il y a un mois, Nvidia a fourni un lien vers un résumé d’empreinte carbone pour le système HGX H100 SXM de référence (un PCB et les huit GPU H100 qui les accompagnent), vérifié par un acteur tiers.
« Notre PCF (Product Carbon Footprint) a déterminé que l’empreinte carbone de la conception à la sortie d’usine [“cradle to gate” en VO, N.D.L.R.] pour une “baseboard” GPU HGX H100 est de 1 312 kg équivalent CO2. Les principaux contributeurs à ces émissions sont les matériaux et composants, représentant 91 % des émissions totales. La production de mémoire à haute bande passante (42 %), de circuits intégrés (25 %) et de composants thermiques (18 %) est un facteur significatif de l’empreinte carbone. De plus, le processus d’assemblage contribue à 8,6 % des émissions totales, tandis que le transport ne représente que 0,4 % », y lit-on.
Un serveur HGX H100 émettrait 45 fois plus à Memphis qu’à Paris (Boris Gamazaychikov, Salesforce)
À partir des données transmises par Nvidia, Boris Gamazaychikov, responsable durabilité chez Salesforce a estimé la consommation électrique d’un HGX H100.
« L’énergie opérationnelle sur toute la durée de vie d’un HGX H100 est d’environ 88 900 kWh », affirme-t-il sur LinkedIn. « Les émissions carbone peuvent varier considérablement en fonction de la source d’électricité. Pour illustrer la grande différence, j’ai comparé deux extrêmes : le centre de données xAI Memphis de Musk alimenté par des turbines à gaz mobiles et le réseau électrique français à faible émission de carbone », poursuit-il.
« La différence est radicale : lorsqu’il est alimenté par des turbines à gaz, le carbone opérationnel est 45 fois plus important que le carbone incorporé initial. Cette différence est réduite à 83 % sur un réseau d’électricité propre ».
Un appel à la transparence (alors que Mistral AI ne l’est pas encore totalement)
Même s’il faut prendre ces données avec des pincettes, cela devrait permettre d’affiner ce type d’étude.
Mistral AI encourage les autres acteurs du secteur d’adopter des normes internationales – et aux instances compétentes de se rapprocher des fournisseurs pour les instaurer – en prenant en compte la consommation et le cycle de vie de tous les composants de l’infrastructure (et non seulement des GPU).
Il conviendrait également d’éduquer les utilisateurs à l’IA, de les inviter à choisir la taille du modèle en fonction de leurs « besoins réels », de « grouper les requêtes » et de « privilégier des réponses courtes et ciblées ».
« Un modèle dix fois plus grand générera un impact d’un ordre de grandeur supérieur à ceux d’un plus petit modèle, et ce, pour une même quantité de tokens générés », illustre Mistral AI dans son communiqué.
« C’est un premier pas. Mais le rapport [de Mistral AI] est vraiment léger […] ».
Théo Alves Da CostaPartenaire IA et durabilité, Ekimetrics
Dans un même temps, l’analyse formelle du cycle de vie présentée sous la forme d’une infographie par Mistral AI est peu claire, puisqu’elle ne distingue pas l’entraînement de l’inférence concernant les émissions GES et la consommation d’eau.
« C’est un premier pas. Mais le rapport est vraiment léger […] », commente Théo Alves Da Costa, partenaire IA et durabilité chez Ekimetrics, sur LinkedIn. Ekimetrics est une ESN spécialisée dans l’IA et l’écoresponsabilité des pratiques de data science. « Pouvez-vous produire un rapport complet indiquant des détails sur la méthodologie et les hypothèses, l’empreinte carbone/énergétique pour le nombre total de tokens, la répartition entre l’entraînement et l’inférence, et la répartition de l’usage (pas seulement les réponses de 400 tokens, mais aussi les réponses multimodales, etc.) », réclame-t-il.
Mistral AI précise que son étude est basée sur la méthodologie Frugal AI de l’AFNOR, conforme au standard GHG (ISO 14040/44), tout comme le Crédit Agricole. Les résultats de l’étude de Mistral seront « prochainement disponibles » à travers la base de données « Base Empreinte » de l’Ademe.
Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire