Llama 4 : Meta s’inspire de ses concurrents chinois
Le géant des réseaux sociaux met ses moyens importants à profit pour entraîner des LLM dotés d’une architecture Mixture of Experts. Largement inspiré de DeepSeek et Alibaba, le travail effectué n’empêche pas certains reproches concernant les performances des LLM et leur ouverture.
Samedi 5 avril, Meta a lancé Llama 4, sa quatrième collection de grands modèles de langage (LLM). Ceux-ci sont multimodaux. Deux paires de modèles sont disponibles à travers une licence propriétaire permissive – Llama 4 Maverick et Scout. Une autre paire est accessible en préversion : LLama 4 Behemoth.
Meta était l’un des derniers grands laboratoires à ne pas s’être essayé à la technique Mixture of Experts (MoE). Le géant des réseaux sociaux s’était spécialisé dans l’entraînement de grands modèles de langage denses. LeMagIT ne peut pas s’empêcher de voir l’influence des modèles DeepSeek et Qwen d’Alibaba, qui, s’ils n’ont pas réellement volé la vedette aux LLM des ténors, ont largement prouvé l’intérêt de cette architecture.
Meta adopte l’architecture Mixture of Experts
Ainsi, le plus « petit » modèle de la collection, Llama 4 Scout est composé de 16 experts pour un total de 109 milliards de paramètres. À l’inférence, seuls 17 milliards de paramètres sont activés. Llama 4 Maverick dispose du même nombre de paramètres actifs, mais inclut 128 experts pour un total de 400 milliards de paramètres. Llama 4 Behemoth ne compte que 16 experts pour 288 milliards de paramètres actifs et un total d’environ 2 000 milliards (oui, deux mille milliards) de paramètres.
Selon Meta, cette architecture est obtenue en alternant des couches denses et MoE. Avec Maverick, il y a 128 experts routés (dédiés) et un expert partagé. « Chaque token est envoyé à l’expert partagé ainsi qu’à l’un des experts routés », expliquent les porte-parole de Meta. « Par conséquent, bien que tous les paramètres soient stockés en mémoire, seul un sous-ensemble du total des paramètres est activé lors de l’utilisation de ces modèles ».
MoE oblige, Llama 4 est une collection plus gourmande à l’inférence. Quoi qu’en dise Meta. Comme ses concurrents, le fournisseur joue sur la compression (quantization).
Encodé en huit bits, Llama 4 Maverick a besoin d’un hôte DGX H100 pour s’exécuter, c’est-à-dire d’un serveur doté de huit GPU Nvidia H100 pour un total de 640 Go de VRAM et 2 To de mémoire vive. Scout n’aurait besoin que d’un seul H100 avec l’encodage de ses poids en 4 bits (INT4).
Pour autant, les modèles sont d’abord proposés en FP16. Meta ne détaille pas réellement la puissance de calcul réelle nécessaire pour exécuter ses modèles.
À l’entraînement, Meta a utilisé la précision mixte FP8 pour entraîner Behemoth sur 32 000 GPU Nvidia (390 TFLOPS par GPU). À noter que le fournisseur n’a pas terminé l’entraînement de ce « very Large Language Model ». Meta comptabilise déjà une empreinte de 1 999 tonnes équivalent CO2 pour Scout et Maverick pour 7,38 millions d’heures GPU. Llama 3 8B et 70B ont généré 2 290 TCO2e pour 7,7 millions d’heures GPU. Le bilan carbone des modèles MoE est donc légèrement meilleur que celui des modèles denses. À lui seul, Llama 3.1 405B avait généré 8 930 tonnes équivalent carbone.
Jusqu’à 10 millions de tokens en entrée
L’intérêt principal des modèles LLama 4 ajoute une inconnue en matière de puissance de calcul nécessaire à l’inférence. Alors que Meta avait tardé à offrir des modèles dotés d’une fenêtre de contexte de 128 000 tokens (le standard actuel), Llama 4 étend amplement cette capacité.
La fenêtre de contexte de Scout peut atteindre jusqu’à 10 millions de tokens (plus de 5 millions de mots), quand celle de Maverick est de 1 million de tokens. Celle de Behemoth n’a pas été dévoilée. Les petites lignes présentes sur le site de Meta précisent que ces longueurs de contextes ont été testées avec 512 GPU en utilisant une technique avancée de parallélisation.
Maverick et Scout ont été entraînés avec une fenêtre de 256 000 tokens. L’usage de couches d’attention entrelacées sans embeddings de positionnement (No Positionnal Embeddings ou NoPE) permettrait d’étendre cette capacité.
Pour rappel, les embeddings de positionnement sont des vecteurs qui représentent la position absolue d’un mot par rapport à un autre dans une phrase. Bien qu’ils améliorent la qualité de compréhension d’un contenu en entrée, ceux-là affectent la longueur de la fenêtre de contexte.
Pour l’étendre, les chercheurs de Meta explorent depuis 2022 le mécanisme RoPE, c’est-à-dire un outil de rotation des embeddings de positionnement. Toutefois, la méthode atteint un plafond.
L’attention sans embeddings de positionnement doit supprimer cette barrière, car elle permet d’apprendre la position relative et fixe des embeddings. Malheureusement, selon les chercheurs de Cohere, un recours exclusif à la méthode NoPE tend à réduire la précision des résultats générés et de la compréhension des textes en entrée.
C’est probablement pour pallier ce défaut que les chercheurs de Meta couplent les couches NoPE avec une fenêtre d’attention fixe (chunked attention) dotée du mécanisme RoPE. D’après l’analyse de Hugging Face, l’entrelacement implique l’utilisation d’une couche NoPE après trois couches d’attention RoPE.
Enfin, une mise à l’échelle au moment de l’inférence (inference time scaling) de l’attention justifie les chiffres présentés plus haut. Plus précisément, Meta contrôle la température dans la fonction softmax exécutée pour les couches NoPE afin d’ajuster l’attention en fonction de la longueur du contenu en entrée.
En résulte une fenêtre d’attention hybride appelée iRoPE, où les couches NoPE peuvent accéder à l’ensemble du contexte en entrée quand les couches RoPE se concentrent sur des portions de tokens, de manière localisée.
Entraînement : Meta emprunte les méthodes de DeepSeek
Du fait de l’architecture MoE et de la taille des modèles, Meta a largement revu ses pipelines de pré et post-entraînement.
Il faut aussi prendre en compte la présence d’un encodeur vision, nommé MetaCLIP pour traiter des images en entrée. Celui-ci a été entraîné séparément « en conjonction avec un modèle Llama figé, afin de mieux l’adapter aux LLM ».
« Nous avons mis au point une nouvelle technique d’apprentissage, appelée MetaP, qui nous permet de définir de manière fiable les hyperparamètres critiques du modèle, tels que les taux d’apprentissage par couche et les échelles d’initialisation », poursuivent les chercheurs de Meta. « Nous avons constaté que les hyperparamètres choisis se transfèrent bien à travers différentes valeurs de la taille du lot, de la largeur du modèle, de la profondeur et des tokens d’entraînement ».
Jusqu’alors, le géant des réseaux sociaux affirmait ne pas utiliser les données de ses utilisateurs pour entraîner ses LLM...
Puisqu’il fallait étendre la fenêtre de contexte et reconnaître des images, Llama 4 Scout et Maverick ont été entraînés sur 40 000 milliards et 22 000 milliards de tokens. Le corpus comprend du texte, des images en provenance de jeux de données « publics » et de données sous licences en provenance des produits et services de Meta, dont les posts partagés publiquement sur Instagram et Facebook. Jusqu’alors, le géant des réseaux sociaux affirmait ne pas utiliser les données de ses utilisateurs pour entraîner ses LLM.
En outre, les modèles ont été préentraînés avec du contenu écrit en 200 langues, dont 100 sont associés à plus de 1 milliard de tokens chacun.
« Avec Llama 4, nous avons entièrement repensé notre pipeline de post-entraînement en adoptant une nouvelle approche : un fine-tuning supervisé léger (SFT), suivi d’un apprentissage par renforcement en ligne (RL), puis d’une optimisation directe des préférences allégée (DPO) », avancent les chercheurs de Meta.
« Avec Llama 4, nous avons entièrement repensé notre pipeline de post-entraînement : un fine-tuning supervisé léger, [...] un apprentissage par renforcement en ligne, [...] une optimisation directe des préférences allégée. »
Équipe des chercheurs de Meta
Un LLM as a judge a été utilisé pour « supprimer » les données les plus simples à interpréter. « Le fine-tuning supervisé léger a ensuite été appliqué uniquement au sous-ensemble plus difficile des données restantes ».
Les chercheurs de Meta ont ensuite concocté des prompts complexes pour l’apprentissage par renforcement. Une phase de reinforcment learning en continu a été utilisée pour ne traiter que les prompts de « difficulté moyenne à élevée ».
Cette phase d’apprentissage par renforcement a demandé à Meta de revoir son infrastructure et ses frameworks pour pouvoir entraîner le gigantesque Behemoth.
Enfin, une phase de DPO a été utilisée pour réduire les incohérences et les risques. Maverick a également bénéficié d’un mécanisme de codistillation de connaissances. Ici, un checkpoint de Behemot a joué le rôle de professeur à l’aide d’une fonction de perte permettant d’ajuster dynamiquement les données en sortie. Cela permettrait de réduire les coûts de calcul.
Des benchmarks remis en question
Résultat, Maverick présenterait des performances égales ou supérieures à Gemini 2.0 Flash, DeepSeek V3.1 et GPT-4o. Scout ferait mieux que Gemma 3 27B, Mistral 3.1 24B et Gemini 2.0 Flash Lite.
Pour autant, des benchmarks tiers pointent des performances bien moins élevées que les ténors Claude 3,5 Sonnet et GPT4o en matière de programmation. L’inférence des modèles MoE est plus difficile à maîtriser que celle d’un modèle dense. Ces résultats en deçà des annonces pourraient être causés par un bug d’implémentation, suggère Armand Joulin, principal scientist chez Google DeepMind, sur X.
« Il n’est pas facile de mettre sur le marché des modèles ouverts et les versions sont souvent accompagnées de bugs d’implémentation », note-t-il. « Pour Gemma 3, une équipe spécialisée a travaillé pendant des semaines pour éviter ces problèmes. Attendons donc avant de juger les performances de Llama 4 ».
Les Européens à nouveau privés d’accès aux licences de Meta
Les modèles sont aussi limités par leur « Knowledge cutoff » daté au mois d’août 2024. Sans accès à internet, Scout n’est pas capable de citer le nom de l’actuel président des États-Unis. De manière générale, Llama 4 est sensible aux hallucinations. Un changement brusque de sujet dans une conversation peut également perturber son fonctionnement. En revanche, l’encodeur visuel semble remplir son objectif : il peut par exemple reconnaître si une image a été générée par une IA ou trouver le contexte d’une prise de vue.
« Llama 4 n’est pas open source et les Européens en sont exclus. »
Open Source Initiative
Problème, outre le fait qu’il trie sur le volet les personnes pouvant télécharger les LLM, Meta prive les droits de licence à certains usagers. « Llama 4 n’est pas open source et les Européens en sont exclus », affirme l’Open Source Initiative. « Arrêtez d’appeler cela de l’IA open source », lance l’association faisant figure d’autorité pour standardiser les licences ouvertes. L’expression IA open source renvoie déjà à une définition de l’OSI dont Meta ne respecte pas les critères.