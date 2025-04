Samedi 5 avril, Meta a lancé Llama 4, sa quatrième collection de grands modèles de langage (LLM). Ceux-ci sont multimodaux. Deux paires de modèles sont disponibles à travers une licence propriétaire permissive – Llama 4 Maverick et Scout. Une autre paire est accessible en préversion : LLama 4 Behemoth.

Meta était l’un des derniers grands laboratoires à ne pas s’être essayé à la technique Mixture of Experts (MoE). Le géant des réseaux sociaux s’était spécialisé dans l’entraînement de grands modèles de langage denses. LeMagIT ne peut pas s’empêcher de voir l’influence des modèles DeepSeek et Qwen d’Alibaba, qui, s’ils n’ont pas réellement volé la vedette aux LLM des ténors, ont largement prouvé l’intérêt de cette architecture.

À l’entraînement, Meta a utilisé la précision mixte FP8 pour entraîner Behemoth sur 32 000 GPU Nvidia (390 TFLOPS par GPU). À noter que le fournisseur n’a pas terminé l’entraînement de ce « very Large Language Model ». Meta comptabilise déjà une empreinte de 1 999 tonnes équivalent CO2 pour Scout et Maverick pour 7,38 millions d’heures GPU. Llama 3 8B et 70B ont généré 2 290 TCO2e pour 7,7 millions d’heures GPU. Le bilan carbone des modèles MoE est donc légèrement meilleur que celui des modèles denses. À lui seul, Llama 3.1 405B avait généré 8 930 tonnes équivalent carbone.

Encodé en huit bits, Llama 4 Maverick a besoin d’un hôte DGX H100 pour s’exécuter, c’est-à-dire d’un serveur doté de huit GPU Nvidia H100 pour un total de 640 Go de VRAM et 2 To de mémoire vive. Scout n’aurait besoin que d’un seul H100 avec l’encodage de ses poids en 4 bits (INT4).

Selon Meta, cette architecture est obtenue en alternant des couches denses et MoE. Avec Maverick, il y a 128 experts routés (dédiés) et un expert partagé. « Chaque token est envoyé à l’expert partagé ainsi qu’à l’un des experts routés », expliquent les porte-parole de Meta. « Par conséquent, bien que tous les paramètres soient stockés en mémoire, seul un sous-ensemble du total des paramètres est activé lors de l’utilisation de ces modèles ».

Ainsi, le plus « petit » modèle de la collection, Llama 4 Scout est composé de 16 experts pour un total de 109 milliards de paramètres. À l’inférence, seuls 17 milliards de paramètres sont activés. Llama 4 Maverick dispose du même nombre de paramètres actifs, mais inclut 128 experts pour un total de 400 milliards de paramètres. Llama 4 Behemoth ne compte que 16 experts pour 288 milliards de paramètres actifs et un total d’environ 2 000 milliards (oui, deux mille milliards) de paramètres.

Enfin, une mise à l’échelle au moment de l’inférence (inference time scaling) de l’attention justifie les chiffres présentés plus haut. Plus précisément, Meta contrôle la température dans la fonction softmax exécutée pour les couches NoPE afin d’ajuster l’attention en fonction de la longueur du contenu en entrée.

L’attention sans embeddings de positionnement doit supprimer cette barrière, car elle permet d’apprendre la position relative et fixe des embeddings. Malheureusement, selon les chercheurs de Cohere, un recours exclusif à la méthode NoPE tend à réduire la précision des résultats générés et de la compréhension des textes en entrée.

Maverick et Scout ont été entraînés avec une fenêtre de 256 000 tokens. L’usage de couches d’attention entrelacées sans embeddings de positionnement (No Positionnal Embeddings ou NoPE) permettrait d’étendre cette capacité.

Entraînement : Meta emprunte les méthodes de DeepSeek

Du fait de l’architecture MoE et de la taille des modèles, Meta a largement revu ses pipelines de pré et post-entraînement.

Il faut aussi prendre en compte la présence d’un encodeur vision, nommé MetaCLIP pour traiter des images en entrée. Celui-ci a été entraîné séparément « en conjonction avec un modèle Llama figé, afin de mieux l’adapter aux LLM ».

« Nous avons mis au point une nouvelle technique d’apprentissage, appelée MetaP, qui nous permet de définir de manière fiable les hyperparamètres critiques du modèle, tels que les taux d’apprentissage par couche et les échelles d’initialisation », poursuivent les chercheurs de Meta. « Nous avons constaté que les hyperparamètres choisis se transfèrent bien à travers différentes valeurs de la taille du lot, de la largeur du modèle, de la profondeur et des tokens d’entraînement ».

Jusqu’alors, le géant des réseaux sociaux affirmait ne pas utiliser les données de ses utilisateurs pour entraîner ses LLM...

Puisqu’il fallait étendre la fenêtre de contexte et reconnaître des images, Llama 4 Scout et Maverick ont été entraînés sur 40 000 milliards et 22 000 milliards de tokens. Le corpus comprend du texte, des images en provenance de jeux de données « publics » et de données sous licences en provenance des produits et services de Meta, dont les posts partagés publiquement sur Instagram et Facebook. Jusqu’alors, le géant des réseaux sociaux affirmait ne pas utiliser les données de ses utilisateurs pour entraîner ses LLM.

En outre, les modèles ont été préentraînés avec du contenu écrit en 200 langues, dont 100 sont associés à plus de 1 milliard de tokens chacun.

Quant à la méthode de post-entraînement, elle semble largement inspirée des recettes publiées par DeepSeek.

« Avec Llama 4, nous avons entièrement repensé notre pipeline de post-entraînement en adoptant une nouvelle approche : un fine-tuning supervisé léger (SFT), suivi d’un apprentissage par renforcement en ligne (RL), puis d’une optimisation directe des préférences allégée (DPO) », avancent les chercheurs de Meta.

« Avec Llama 4, nous avons entièrement repensé notre pipeline de post-entraînement : un fine-tuning supervisé léger, [...] un apprentissage par renforcement en ligne, [...] une optimisation directe des préférences allégée. » Équipe des chercheurs de Meta

Un LLM as a judge a été utilisé pour « supprimer » les données les plus simples à interpréter. « Le fine-tuning supervisé léger a ensuite été appliqué uniquement au sous-ensemble plus difficile des données restantes ».

Les chercheurs de Meta ont ensuite concocté des prompts complexes pour l’apprentissage par renforcement. Une phase de reinforcment learning en continu a été utilisée pour ne traiter que les prompts de « difficulté moyenne à élevée ».

Cette phase d’apprentissage par renforcement a demandé à Meta de revoir son infrastructure et ses frameworks pour pouvoir entraîner le gigantesque Behemoth.

Enfin, une phase de DPO a été utilisée pour réduire les incohérences et les risques. Maverick a également bénéficié d’un mécanisme de codistillation de connaissances. Ici, un checkpoint de Behemot a joué le rôle de professeur à l’aide d’une fonction de perte permettant d’ajuster dynamiquement les données en sortie. Cela permettrait de réduire les coûts de calcul.