IA : les grands modèles consomment jusqu’à 61 000 fois plus d’énergie que les petits
L’AI Energy Score met en évidence l’énorme disparité entre les modèles de deep learning et les grands modèles de langage en matière d’énergie consommée à l’inférence. Un écart global de facteur 61 000 entre les 166 modèles testés, justifié par leur taille, mais aussi leurs différents usages.
Hugging Face, l’université Carnegie Mellon, Cohere et Salesforce ont lancé récemment l’AI Energy Score. Contrairement à la plupart des parangonnages consacrés à l’impact énergétique des grands modèles de langage, ce classement s’intéresse plus particulièrement à la consommation des modèles d’IA à l’inférence (à l’usage ou au « run », pour les profanes).
Il s’agit très spécifiquement de mesurer l’énergie consommée, exprimée en wattheure, par différents algorithmes. L’objectif des promoteurs mentionnés plus haut est de faire de l’AI Energy score, un classement de référence pour identifier les modèles les plus efficients par tâche.
Derrière l’AI Energy Score, des experts en impact énergétique de l’IA
« La recherche sous-jacente et l’idée initiale sont attribuables à Dr Sasha Luccioni, responsable IA et climat chez Hugging Face », explique Boris Gamazaychikov, Head of AI Sustainability chez Salesforce et l’un des contributeurs du projet AI Energy Score.
« Lors de ses travaux précédents, Sascha avait exploré ce type d’analyses et s’était demandé : peut-on appliquer cette méthodologie, initialement utilisée sur quelques modèles, à plus grande échelle ? », poursuit-il. « Peut-on en faire une approche continue avec un classement et un portail de soumission pour la faire perdurer ? C’est là que je suis intervenu, avec quelques autres personnes [dont la pionnière Emma Strubell, N.D.L.R], pour faire évoluer le projet et le concrétiser ».
D’autres benchmarks consacrés à l’inférence ont vu le jour : MLPerf Inference, Zeus ou encore Ecologits. Cependant, la consommation d’énergie rapportée est parfois incomplète, basée sur des données secondaires, ou alors transmises par les fournisseurs de LLM eux-mêmes, assurent les personnes derrière l’AI Energy Score.
Ici, pas de place au « guesstimate » [d’estimation au doigt mouillé, en français]. Les experts utilisent le framework Optimum de Hugging Face, ainsi que CodeCarbon, une librairie open source pour mesurer l’empreinte énergétique d’une base de code Python. CodeCarbon s’appuie sur Nvidia System Management Interface, un outil de supervision des GPU Nvidia. Lors des mesures, les chercheurs prennent en compte la compression des poids (quantization).
Inviter tous les fournisseurs de LLM à mesurer la consommation de leurs modèles
La plupart des modèles listés sont « open weight ». Or, les promoteurs de l’AI Energy Score l’affirment haut et fort. « L’un des principaux objectifs de ce projet est de permettre l’inclusion de modèles propriétaires », répète Boris Gamazaychikov. Et à Cohere et à Salesforce de montrer l’exemple en incluant d’abord leurs modèles ouverts dans le classement. « Nous avons contacté tous les grands fournisseurs de modèles d’IA propriétaires. Nous n’avons pas encore obtenu leurs résultats, mais nous espérons les convaincre ».
« L’un des principaux objectifs de ce projet est de permettre l’inclusion de modèles propriétaires [au classement AI Energy Score] ».
Boris GamazaychikovHead of AI Sustainability, Salesforce
Pour ce faire, l’AI Energy Score est accompagné d’un environnement Docker pour tester les performances énergétiques des modèles en mode privé. OpenAI, Mistral AI, Anthropic et les autres pourraient soumettre leurs LLM à ce test.
Dans le cas présent, les experts chez Hugging Face, Salesforce et l’Université Carnegie Mellon s’intéressent à une dizaine de tâches. Les voici : génération de texte, production de résumé, extraction d’information, classification de texte, recherche de similarités, classification d’images, détection d’objets, speech to text, génération d’images (text to image) et description d’images (image to text). Ces catégories sont bien connues des usagers d’Hugging Face et la méthodologie s’avère proche de celle de Salesforce.
166 modèles ont été éprouvés par la petite équipe derrière le projet. Le tableau de l’AI Energy Score affiche une consommation d’énergie exprimée en GPU-Wh pour 1 000 requêtes par tâche. Il existe également un système d’étoiles afin d’apprécier les performances énergétiques des modèles. Une étoile indique que le modèle est le plus énergivore parmi les modèles testés au moment d’accomplir une tâche spécifique. Les modèles affichant cinq étoiles sont les plus efficaces sur le plan énergétique par rapport aux autres modèles évalués pour cette tâche.
Si le sujet est en discussion, il n’est pas encore question de réaliser un rapport performance-consommation énergétique. « L’on ne peut pas choisir le modèle le plus efficient et s’attendre à ce qu’il fonctionne dans tous les cas de figure », reconnaît Boris Gamazaychikov. « C’est à l’étude, mais il y a beaucoup de facteurs supplémentaires pouvant être pris en compte, comme les biais de toxicité, par exemple ».
En cela, les porteurs de l’AI Energy Score partagent les données des tests avec la communauté afin que d’autres projets émergent. « J’ai déjà vu apparaître un embryon de projet [qui s’appuie sur l’AI Energy Score] pour optimiser les performances énergétiques des modèles », illustre-t-il.
Un écart de facteur 61 000 entre le modèle le plus énergivore et le plus frugal
Pour l’heure, le classement prend uniquement en compte la consommation énergétique du GPU. « Lors de l’exécution d’un modèle d’IA, il consomme des ressources GPU, CPU et de la mémoire vive (RAM) », indique Boris Gamazaychikov. « Mais comme les différents modèles de composants impliquent une variabilité, nous avons isolé la consommation d’énergie du GPU et nous concentrant sur un modèle spécifique : le H100 ».
C’est aussi un moyen de pouvoir comparer des modèles, sans devoir se poser la question de tester plusieurs équipements. « Le problème, c’est que si vous faites l’évaluation sur plusieurs configurations, cela rend les résultats moins comparables d’un modèle à l’autre », avance Boris Gamazaychikov.
La seule exception à cette règle concerne la génération de texte.
Pour cette tâche spécifique, les modèles sont subdivisés en trois catégories (A, B, C) : moins de 20 milliards de paramètres, entre 20 et 66 milliards de paramètres et plus de 66 milliards de paramètres. Suivant ces tailles, trois modes de déploiement sont testés : sur une instance cloud dotée d’un GPU Nvidia H100 (80 Go de VRAM, TDP 700 watts), sur une instance cloud réclament plusieurs GPU H100 et sur une machine locale dotée d’une carte grand public haut de gamme. Il s’agit plus particulièrement de la RTX 4090 (24 Go de VRAM, TDP 450 watts).
Les deux tâches les plus énergivores sont, sans surprise, la génération de texte et d’images.
Ainsi, avec plusieurs H100, Llama 3-70B consomme 1 719 GPU-Wh pour 1 000 requêtes, QWen 2.5 72 B Instruct nécessite 1869 GPU-Wh, quand Command R Plus (104 milliards de paramètres) de Cohere demande 3 426 GPU-Wh.
En matière de génération d’images, Stable Diffusion XL est le plus gourmand de sa catégorie (1639 GPU-Wh) alors que Stable Diffusion turbo ne réclame « que » 189 GPU-Wh pour 1 000 images.
Les modèles de 7 milliards de paramètres consomment entre 15 et 19 GPU-Wh pour 1 000 requêtes avec la RTX 4090. Les modèles dotés entre 1 et 3 milliards de paramètres tirent environ 5 à 10 GPU-Wh.
Exécuté sur une instance cloud dotée d’un GPU H100, le modèle speech to text GPU-Whisper tiny d’OpenAI consomme 13,44 GPU-Wh pour l’équivalent de 1 000 requêtes. GPU-Whisper Large réclame 86,68 GPU-Wh.
En comparaison, les modèles de classification de texte, d’images et d’extraction d’entités nommés sont très peu énergivores, hormis les modèles Google T5. Les modèles Ministral 8B (20,87 GPU-Wh), Mixtral 8x7B (615 GPU-Wh), et Mistral 7B (19,13 GPU-Wh) de Mistral AI ne sont malheureusement pas les plus efficients de leur catégorie.
« Ce qui est frappant, c’est que l’écart de consommation énergétique entre le modèle le plus vorace et le plus économe de ce classement atteint un facteur de 61 000 ».
Boris GamazaychikovHead of AI Sustainability, Salesforce
« Ce qui est frappant, c’est que l’écart de consommation énergétique entre le modèle le plus vorace et le plus économe de ce classement atteint un facteur de 61 000 », affirme Boris Gamazaychikov. Dans une autre étude, des chercheurs travaillant pour Capgemini Invent avaient déterminé que « les modèles d’IA générative consomment jusqu’à 4 600 fois plus que les modèles traditionnels ».
« Cela illustre à quel point l’intelligence artificielle ne peut être réduite à une entité unique : son impact varie profondément selon l’usage qui en est fait », ajoute le responsable de l’IA durable chez Salesforce.
Un dispositif à compléter
« Cela illustre à quel point l’intelligence artificielle ne peut être réduite à une entité unique : son impact varient profondément selon l’usage qui en est fait »
Boris GamazaychikovHead of AI Sustainability, Salesforce
S’il est possible de soumettre un test n’importe quand, l’AI Energy Score sera mis à jour tous les six mois approximativement.
« Une fois le classement mis à jour, les modèles se voient attribuer une nouvelle étiquette reflétant leur score et la date de publication de l’évaluation », notent les contributeurs. « Les étiquettes comportent un lien vers le classement public, ce qui permet de vérifier les résultats en temps réel. Les classements antérieurs restent accessibles à des fins d’archivage ».
À l’avenir, les contributeurs espèrent tout de même tester d’autres GPU de Nvidia et convaincre les fournisseurs de LLM exploitant d’autres puces.
« Nous avons discuté avec des personnes de Google pour contribuer à ce projet et nous espérons à l’avenir avoir un moyen d’inclure les TPU », illustre le responsable de l’IA durable chez Salesforce. « Pour l’instant, il n’existe pas de moyen pour des personnes externes de mesurer l’énergie des TPU de la même manière que pour les GPU de Nvidia ».
De son côté, Google a mesuré des variations fortes de la consommation d’énergie de ces TPU suivant l’intensité des charges de travail.
En attendant, la documentation du projet contient déjà une formule pour estimer la consommation d’énergie totale des modèles [= (eGPU + eCPU + eRAM + eNetworking + eStorage) × PUE, N.D.L.R]. Quant aux émissions carbone, elles dépendent de l’emplacement du data center.
« D’après les données expérimentales, l’utilisation du CPU et de la RAM s’est avérée environ 30 % supérieure à la consommation énergétique du GPU », écrivent les auteurs de la documentation de l’AI Energy Score. En outre, un PUE de 1,2 impliquerait un surplus de consommation d’énergie de 20 % pour le refroidissement et d’autres fonctions « non IT ». Des estimations qui permettraient de compléter ce tableau.
En revanche, estimer les émissions carbone des LLM « dépasse le cadre actuel de l’AI Energy Score », considère Boris Gamazaychikov. « Peut-être pourrions-nous fournir des lignes directrices supplémentaires, mais je pense qu’il y a déjà de bonnes ressources pour réaliser ces estimations, dont electricity maps ».
Un appel à la transparence
En interne, Salesforce sélectionnerait les régions dans lesquelles elle déploie ses modèles. « Nous faisons attention à l’intensité carbone et la rareté de l’eau dans les régions concernées », assure Boris Gamazaychikov. « IBM et d’autres entreprises le font également, ce qui est une bonne chose ».
« Beaucoup de gens ne sont pas sûrs que l’IA puisse être durable », poursuit-il. « D’après notre travail, nous sommes convaincus que c’est possible. Mais pour cela, il faut commencer par la transparence. Je pense qu’il y a beaucoup de suppositions, d’estimations, d’approximations, et beaucoup de confusion dans ce domaine. Et, malheureusement, c’est ce qui arrive quand il y a tant d’opacité ».
Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire