Pour l’instant, Meta AI a présenté les variantes préentraînées et instruites dotées de 8 et 70 milliards de paramètres. Ces quatre modèles disposent d’une fenêtre de contexte de 8 192 tokens, soit le double de Llama 2 (4096 tokens). Les connaissances de Llama 3-8B sont arrêtées au mois de mars 2023, tandis que celles de Llama 3 70B sont figées en décembre 2023.

Un troisième membre de cette famille de LLM est en cours d’entraînement : LLama 3-400B. Ce LLM de 400 milliards de paramètres sera équipé d’une fenêtre de contexte plus longue. D’autres modèles sont d’ores et déjà prévus, dont certains seront doués de capacités multimodales.

Comme Llama 2-70B, l’architecture de Llama 3 s’appuie sur l’optimisation du mécanisme d’attention groupé (Grouped Query Attention ou GQA). Cette fois-ci, à l’instar de Mistral AI pour Mixtral 8x22B, Meta a revu son tokenizer afin qu’il prenne en compte un vocabulaire de 128 000 tokens, contre 32 000 tokens auparavant.

En revanche, comme anticipé par les interlocuteurs du MagIT, Meta n’a pas opté pour l’architecture Sparse Mixture of Experts (SMoE) pour LLama 3-8B et Llama 3-70B. Celle-ci est très appréciée de Mistral, Databricks et Microsoft, mais les quatre LLM disponibles sont des modèles « denses ».

Llama 2 participe à l’entraînement de son successeur

Meta avait mis un point d’honneur quant à la qualité des données de préentraînement et d’affinage (supervised fine-tuning) de Llama 2. Il dit maintenir cette approche avec Llama 3. Il y a tout de même un changement de taille. Au lieu d’un jeu de données de 2 000 milliards de tokens (2 billions en français et 2 trillions en anglais), il en a réuni plus de 15 000 milliards (15 T). Une hausse de 650 % par rapport à Llama 2 et de 971 % par rapport à Llama 1 (1 400 milliards de tokens). « Notre jeu de données d’entraînement est sept fois plus grand que celui utilisé pour Llama 2 », précise de son côté méta AI.

Concernant le contenu des données en elle-même, le géant des réseaux sociaux précise qu’il a ajouté quatre fois plus de lignes de code et « environ 5 % » des données de préentraînement sont constitués de données de « très haute qualité et non anglophones ». Ces cinq petits pour cent, près de 75 milliards de tokens donc, réunissent des informations dans 30 langues différentes.

Pour améliorer la qualité des données, les chercheurs ont poursuivi l’amélioration des pipelines de filtrage de données en exploitant à la fois des heuristiques (des règles) et des approches sémantiques de déduplications. Les chercheurs ont aussi Llama 2 pour effectuer certaines de ces tâches.

Lors de l’affinage des modèles « Instruct », Meta a exploité des méthodes de fine-tuning supervisé, de rejet d’échantillons, des méthodes d’optimisation de politique proximale (PPO), et d’optimisation directe des politiques (DPO). Les deux techniques d’apprentissage par renforcement PPO et DPO consistent à entraîner des modèles de récompense afin d’aligner les résultats et empêcher les dérives. Ces deux approches auraient permis d’améliorer les résultats de Llama 3-8B et LLama 3-70B « Instruct » au moment d’accomplir des tâches de programmation et de raisonnement.

Le fournisseur de LLM a également mis à jour ses outils (qui sont aussi des LLM), Llama Guard et Cybersec, disponibles dans une V2. Ceux-là doivent respectivement empêcher les modèles de générer des contenus dangereux et du code « non sécurisé » ou malveillant.

Toutefois, Meta signale que l’ajout de 10 millions d’exemples annotés par des humains a grandement aidé dans l’obtention de ces résultats.