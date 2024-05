Il y a petit et petit modèle d’IA générative. Pour entraîner un small language model (SLM), il y a – essentiellement – deux moyens. Le premier, le plus répandu, consiste à sélectionner un LLM pour en « distiller » les connaissances. Cette technique de fine-tuning consiste à transférer l’apprentissage d’un modèle à un autre plus petit. Pour éviter les erreurs de prédiction ou le surentraînement, l’on ne réutilise pas les données d’apprentissage initial.

Au lieu de cela, le grand modèle – ici considéré comme un enseignant – est utilisé pour valider ou non la qualité des réponses du plus petit modèle – un élève. Il s’agit d’entraîner ce modèle étudiant afin qu’ils reproduisent les prédictions et les distributions de probabilité de son maître. Pour cela, il s’agit de labéliser les données générées par le modèle et de les utiliser comme maître étalon. Voilà comment les géants technologiques forment leurs collections de modèles.

Les techniques d’entraînement jouent sur le bilan carbone Toutefois, il faut prendre en compte le bilan énergétique d’une telle méthode. Si la distillation n’est pas très énergivore, ce n’est pas le cas de l’entraînement d’un LLM. Selon l’observatoire Climat des Hauts de France, 290 tonnes équivalent CO2 correspondent aux émissions de l’artificialisation d’un hectare de forêt. Dans son article de recherche, Meta AI signale que LLama 2-70B, qui n’est pourtant pas le modèle le plus gros sur le marché, a nécessité 1 720 320 heures GPU d’entraînement, une étape qui a émis 291,42 tonnes équivalent CO2. Llama 2-7B, qui a été entraîné à l’aide de la fameuse technique de distillation, a nécessité 184 320 heures GPU pour un bilan carbone de 31,22 tonnes équivalent CO2. À titre de comparaison, selon l’observatoire Climat des Hauts de France, 290 tonnes équivalent CO2 correspondent aux émissions de l’artificialisation d’un hectare de forêt, car les gaz à effet de serre ne sont plus stockés. En clair, pour compenser l’entraînement de Llama 2-70B, il faudrait planter un hectare de forêt qui… mettra 30 à 40 ans à remplir pleinement son rôle. Pour compenser l’entraînement de Llama 2-70B, il faudrait planter un hectare de forêt qui… mettra 30 à 40 ans à remplir pleinement son rôle. Au moment d’entraîner ou de fine-tuner un plus petit modèle, il faudrait donc, idéalement, vérifier si son maître est énergivore ou non. Il convient de prendre en compte le bilan carbone du LLM étalon, de son petit frère distillé et des futures étapes de fine-tuning. D’autant que la distillation réclame – encore – de grandes quantités de données pour obtenir des performances équivalentes à des modèles de très grandes tailles, comme LLama 3 70B ou GPT-4. D’ailleurs, comme les chercheurs se sont aperçus que l’usage d’un plus gros volume de données de meilleure qualité est bénéfique en matière de performances, les entraînements sont plus longs, et donc plus consommateurs.

Llama 3-8b au moins douze fois plus émetteur que Llama 2-7B Ainsi, le bilan du successeur de Llama 3 est pire encore. À date, l’entraînement de la collection LLama 3 a émis 2 290 tonnes équivalent carbone, soit une hausse de 324,86 % et l’équivalent des émissions de 249 français par an. Cette fois-ci, il faudrait près de huit hectares de plantation arboricole pour « effacer » cette dette carbone. Llama 3-8B, à lui seul a émis 390 tonnes équivalent carbone au cours de son entraînement, soit 100 de plus que pour l’ensemble de la collection Llama 2 et 12 fois plus que Llama 2-7B. La deuxième technique, moins énergivore, consiste à entraîner directement un modèle de petite taille. C’est ce que le collectif de chercheurs Eleuther AI a mis en place, lors de l’entraînement de GPT-NeoX-20B (20 milliards de paramètres), à l’aide de douze serveurs équipés chacun de huit GPU Nvidia A100 40 Go SXM4. Eleuther AI estime que l’entraînement de ce modèle a émis 31,73 tonnes équivalent CO2, soit l’équivalent des émissions de Llama 2-7B, « des émissions annuelles d’un Américain moyen ou de 35 vols aller-retour New York – San Francisco ». Le ratio performance-coût-consommation jouait jusqu’alors en la faveur de la première option, la distillation. Les petits modèles qui en découlent sont de plus en plus performants et leur fine-tuning coûte de moins en moins cher. Mais des projets comme Phi-3 de Microsoft démontrent qu’une combinaison des deux approches est bénéfique techniquement. Ici, c’est l’architecture de LLama 2 qui est reprise puis modifiée pour entraîner des modèles de 4, 7, et 14 milliards de paramètres. Ici, les modèles ont réclamé 7 jours d’entraînement chacun (environ 504 heures de calcul au total) sur un cluster de 512 GPU Nvidia H100 ou 64 DGX H100 consommant chacun en pic environ 10 kWh. Beaucoup de données, peu de paramètres et une architecture existante, c’est également le parti pris par les responsables du projet français CroissantLLM, qui lui a réclamé 100 000 heures de calcul avec un cluster de 30 nœuds (240 GPU Nvidia A100), mais des émissions comprises entre 2,8 et 3,36 tonnes équivalent carbone. Dans son AI Index Report 2024, l’Université de Stanford observe que d’autres facteurs sont à prendre en compte. Les modèles plus petits, bien que moins émetteurs à l’entraînement « peuvent avoir des émissions élevées suivant l’efficience du réseau d’énergie utilisé ».