creativeneko - stock.adobe.com

IA générative : Llama 3.1 405B, le champion de Meta pour détrôner OpenAI

Meta a terminé l’entraînement de son grand modèle de langage doté de 405 milliards de paramètres. Outre le fait qu’il égale (ou presque) Anthropic et OpenAI avec un LLM « open weight », le géant des réseaux sociaux se rapproche des équipementiers et fournisseurs cloud, pour mieux cibler les entreprises.

Lors du lancement de Llama 3 8B et 70B, Meta avait prĂ©cisĂ© qu’il Ă©tait en train de prĂ©parer une variante dotĂ©e de 400 milliards de paramètres. Elle compte finalement 405 milliards de paramètres et se nomme Llama 3.1. C’est le plus gros modèle de langage entraĂ®nĂ© Ă  ce jour par l’entreprise.

Llama 3.1 est Ă©galement distillĂ© dans des variantes de base et instruites, dotĂ©es respectivement de 8 et 70 milliards de paramètres.

Le gĂ©ant des rĂ©seaux sociaux le prĂ©sente comme le premier « modèle open source de niveau frontière (sic) Â». Pour le prĂ©entraĂ®nement de Llama 3.1 405B, il a utilisĂ© 3,8 Ă— 1 025 FLOPs de puissance de calcul. Selon la grille de lecture actuelle de l’AI Act, cela le catĂ©goriserait automatiquement dans les modèles d’IA prĂ©sentant un risque systĂ©mique. Il n’est toutefois pas certain qu’il soit banni de l’UE, puisqu’il dĂ©coule d’un projet de science ouverte.

De petits ajustements pour un très grand modèle

Les Ă©quipes de recherche de Meta ont optimisĂ© un jeu de donnĂ©es d’entraĂ®nement de 15 600 milliards de tokens. Comme Llama 3, les modèles Llama 3.1 dĂ©pendent Ă  nouveau d’une architecture dense et leur limite de connaissances est fixĂ©e au mois de dĂ©cembre 2023.

« Nous avons choisi une architecture Transformer en mode dĂ©codeur uniquement avec des adaptations mineures plutĂ´t qu’un mĂ©lange d’experts, afin de maximiser la stabilitĂ© de l’entraĂ®nement Â», Ă©crivent les chercheurs de Meta.

Parmi ces ajustements, Meta utilise 8 tĂŞtes clĂ©-valeur pour le mĂ©canisme d’attention groupĂ© (GQA), comme le fait dĂ©jĂ  Mistral AI avec ses modèles denses. Cela permettrait d’accĂ©lĂ©rer la vitesse d’infĂ©rence tout en rĂ©duisant l’espace occupĂ© par les clĂ©s-valeurs en cache.

Les chercheurs utilisent par ailleurs un masque d’attention « pour empĂŞcher l’attention entre diffĂ©rents documents dans une mĂŞme sĂ©quence. Cela a peu d’impact pendant l’entraĂ®nement standard, mais s’avère crucial pour l’entraĂ®nement prolongĂ© sur des sĂ©quences très longues Â», signalent les chercheurs.

Ils ont également fait varier l’hyperparamètre de la fréquence de rotation du mécanisme d’encodage des embeddings (ROPE) afin de mieux prendre en charge des contextes plus longs.

En ce sens, Meta profite pleinement de son tokenizer revu et corrigĂ© basĂ© sur Tiktoken, dont le vocabulaire atteint la taille de 128 000 tokens.

Qui plus est, Meta a enfin trouvĂ© un moyen d’ingĂ©rer plus 8 192 tokens en entrĂ©e. Comme Mistral AI, le gĂ©ant des rĂ©seaux sociaux propose une fenĂŞtre de contexte de 128 000 tokens.

Dans le dĂ©tail, l’entraĂ®nement a dĂ©butĂ© par l’utilisation d’une fenĂŞtre de contexte de 8 192 tokens qui a Ă©tĂ© augmentĂ©e progressivement Ă  sa taille maximale dans un processus de prĂ©entraĂ®nement continu.

Par ailleurs, Meta a optimisé sa chaîne post entraînement. La branche R&D mise encore et toujours sur des techniques de fine-tuning supervisé, de réglages des données d’instruction, d’optimisation directe des préférences (Direct Preference Optimization ou DPO) et de rejet d’échantillons. Là encore, les chercheurs ont privilégié la stabilité des traitements plutôt que l’adoption de techniques plus élaborées.

Si Meta favorise la constitution manuelle de jeux de donnĂ©es, les chercheurs exploitent tout de mĂŞme la gĂ©nĂ©ration de donnĂ©es synthĂ©tiques. Ils ont produit 25 millions d’exemples synthĂ©tiques utilisĂ©s lors du fine-tuning des modèles. Ceux-lĂ  sont triĂ©s sur le volet Ă  l’aide de plusieurs techniques de filtrage de donnĂ©es.

Le plus grand dĂ©fi a Ă©tĂ© d’adapter les diffĂ©rentes Ă©tapes d’entraĂ®nement Ă  la fenĂŞtre de contexte de 128 000 tokens, tout en s’assurant qu’il n’y aurait pas de perte de performance quand les textes ingĂ©rĂ©s sont plus courts.

Meta, coude Ă  coude avec OpenAI et Anthropic

RĂ©sultat, Llama 3.1 405B passe devant GPT-4-0125 face aux benchmarks MMLU, MMLU Pro, IFEval, GSM8K, HumanEval, MBPP EvalPlus, Math, ARC-C, GPQA ou encore MGSM. Il titille du doigt GPT-4o dans plusieurs de ces parangonnages, mais se fait battre de peu par Claude 3,5 Sonnet.

« Notre Ă©valuation expĂ©rimentale suggère que notre modèle phare est compĂ©titif par rapport aux principaux modèles de base pour toute une sĂ©rie de tâches Â», avance Meta.

Llama 3,1 8B devance de peu devant Gemma 2 9B Instruct et LLama 3.1 70B devant Mixtral 8x22B et GPT-3.5 Turbo dans la plupart des benchmarks gĂ©nĂ©riques.

capture d'écran Benchmark Llama 3.1
Les modèles Llama 3.1 face à leurs concurrents contre les parangonnages génériques. Crédits : Meta.

« Llama 3.1 est destinĂ© Ă  un usage commercial et de recherche dans plusieurs langues. Les modèles de texte seul adaptĂ©s Ă  l’instruction sont destinĂ©s Ă  la conversation de type assistant, tandis que les modèles prĂ©entraĂ®nĂ©s peuvent ĂŞtre adaptĂ©s Ă  une variĂ©tĂ© de tâches de gĂ©nĂ©ration de langage naturel Â», prĂ©cise Meta.

Il prend en charge huit langues : l’anglais, le français, l’allemand, l’italien, le portugais, l’hindi, l’espagnol et le thaĂŻ.

Bien que la licence propriétaire permissive change de nom, elle porte les mêmes critères permettant, dans la plupart des cas, une exploitation commerciale sans redevance.

Un bilan carbone faramineux

Toutefois, alors que le marchĂ© s’oriente vers l’utilisation de small language models (SLM) ou de petits LLM (entre 7 et 15 milliards de paramètres), la mise Ă  disposition d’un modèle de 405 milliards de paramètres entraĂ®nĂ© sur un cluster de 16 000 GPU Nvidia H100 (80 Go VRAM HBM3e, TDP de 700 watts) paraĂ®t (dĂ©jĂ ) dĂ©calĂ©e. D’autant que Meta vient de grever son bilan carbone basĂ© sur la localisation en y ajoutant 11 390 tonnes Ă©quivalent CO2 (39,3 millions d’heures de traitement cumulĂ©es), dont 8 930 tco2eq imputables Ă  l’entraĂ®nement de son très gros modèle.

Infographie de l'ADEME. Selon le comparateur de l'ADEME, le bilan carbone non compensé de Llama 3.1 représente 6435 vols aller-retour entre Paris et New York. Selon le comparateur de l'ADEME, le bilan carbone non compensé de Llama 3.1 représente 6435 vols aller-retour entre Paris et New York - Crédits image : ADEME

La collection Llama 3.1 reprĂ©sente 6 435 allers-retours Paris-New York en avion ou 1 198 Po de donnĂ©es stockĂ©es dans le cloud, selon le comparateur de l’ADEME. Une hausse de plus de 2 013 % par rapport au bilan carbone de la collection Llama 2, soit une multiplication des Ă©missions par 20, et de près de 400 % par rapport Ă  Llama 3. Pour rappel, la constitution des premiers membres de la famille Llama 3 avait Ă©mis 2 290 tonnes Ă©quivalent CO2, ce qui Ă©tait dĂ©jĂ  quatre fois plus que pour Llama 2.

Des Ă©missions que l’entreprise dit avoir dĂ©jĂ  compensĂ©es en achetant ou en finançant l’équivalent de 100 % de sa consommation d’électricitĂ© en Ă©nergies renouvelables.

Meta reste l’un des acteurs de l’IA les plus transparents quant à l’exposition de son bilan carbone et continue de considérer que d’autres n’auront pas à réaliser cet entraînement.

Meta se tourne pleinement vers les entreprises

Toutefois, exploiter en production un modèle de 405 milliards de paramètres est un dĂ©fi. Le gĂ©ant des rĂ©seaux sociaux en est conscient. « Bien qu’il s’agisse d’un modèle incroyablement puissant, nous reconnaissons qu’il nĂ©cessite des ressources de calcul et une expertise considĂ©rables Â», note l’entreprise.

« Le modèle de 405 milliards de paramètres exige d’immenses ressources de calcul, notamment des GPU très performants et une capacitĂ© de stockage importante Â», juge Paul Nashawaty, analyste chez Futurum Group, dans un communiquĂ© de presse. « Cela se traduit par des coĂ»ts initiaux importants pour le matĂ©riel, ainsi que par des dĂ©penses permanentes pour l’électricitĂ© et le refroidissement Â».

Meta sait aussi qu’il doit rentabiliser ses investissements. Selon les estimations de SearchAIEnterprise, une publication sĹ“ur du MagIT, un GPU Nvidia H100 coĂ»te entre 25 000 et 40 000 dollars. Au prix courant, Meta aurait dĂ©boursĂ© entre 400 millions et 640 millions de dollars pour acheter ses accĂ©lĂ©rateurs.

Des GPU qui ont tendance Ă  tomber en panne quand ils sont exploitĂ©s de manière intensive. En 54 jours de prĂ©entraĂ®nement de Llama 3.1 405B, Meta rapporte que « les problèmes liĂ©s au GPU constituent la catĂ©gorie la plus importante, reprĂ©sentant 58,7 % de toutes les interruptions Â».

MalgrĂ© tout, il n’y aurait eu que trois grandes interventions manuelles, « le reste des dĂ©fauts Ă©tant gĂ©rĂ© par l’automatisation Â». Sans compter les autres composants des serveurs de calcul, le rĂ©seau, ou encore les 7 500 machines connectĂ©es pour former un espace de 240 pĂ©taoctets disponibles lors de l’entraĂ®nement.

Ainsi, et c’est sans doute le changement le plus notable dans la présentation de ce modèle, Meta reproduit l’approche de Mistral AI et Anthropic en affichant ses partenaires, au nombre de dix.

AWS, Databricks, Dell, Nvidia, Groq, IBM, Google Cloud, Microsoft, Scale et Snowflake proposeront tous LLama 3.1 405B en permettant diffĂ©rentes modalitĂ©s d’usage. Le tableau ci-dessous rapporte la tarification des services cloud pour un million de tokens en entrĂ©e et un autre en sortie.

capture d'écran tarification de Llama 3.1 par les fournisseurs cloud
La tarification proposée par les fournisseurs cloud pour les modèles de la famille Llama 3.1. Crédits : Meta

Dell sera le porteur d’une offre on premise. L’équipementier précise que les modèles seront prochainement disponibles sur le Dell Enterprise Hub.

Meta remercie Ă©galement AMD, Anyscale, CloudFlare, Deloitte, Fireworks.ai, Infosys, Kaggle, Intel, OctoAI, Oracle Cloud, PWC, Replicate, Sarvam AI, Scale.ai, Together AI, Sky Computing Lab… et la SNCF. Tous ont participĂ© d’une manière ou d’une autre Ă  l’entraĂ®nement de Llama 3.1.

En parallèle, Meta a menĂ© des efforts pour compresser Llama 3.1 405B au format d’encodage FP8 afin de le faire tenir sur un « seul serveur Â» dotĂ© de huit GPU H100. De fait, le modèle pèse plus de 800 Go au format BF16, bien au-dessus des 640 Go de VRAM totalisĂ©es par un HGX100.

De leur cĂ´tĂ©, les ingĂ©nieurs de Dell ont pu dĂ©ployer la variante FP8 sur un serveur PowerEdge XE9680 (deux CPU Intel Xeon Scalable jusqu’à 56 cĹ“urs chacun, 8 Nvidia H100 SXM5 NVLINK, 4 To de RAM max) et le modèle BF16 sur deux serveurs de cette mĂŞme gamme, interconnectĂ©s en Infiniband ou en RoCE (Meta prend en charge les deux options).

L’inférence en temps réel, en batch, le fine-tuning, l’évaluation d’autres LLM, la constitution de bases de connaissances, le préentraînement continu, la génération de données synthétiques, la mise à disposition de garde-fous et de recettes de distillation sont autant de capacités que ces partenaires peuvent prendre partiellement ou totalement en charge.

Au vu de la disponibilitĂ© restreinte des GPU, de leur prix, il semble plus Ă©vident pour les entreprises d’opter pour les variantes 8B et 70B de Llama 3.1.

Un outillage nĂ©cessaire pour dompter Llama 3.1

D’autant que Meta souligne (littĂ©ralement) que ses LLM ne sont pas Ă  dĂ©ployer isolĂ©ment de certains outils, dont LLama Guard 3, un LLM entraĂ®nĂ© pour empĂŞcher l’infĂ©rence de contenus toxiques, Prompt Guard, un filtre contre l’injection de prompts de type Jailbreak.

Bien que la collection ait Ă©tĂ© Ă©prouvĂ©e par sa red team, le gĂ©ant des rĂ©seaux sociaux demeure prudent. « Llama 3.1 peut encore gĂ©nĂ©rer du contenu prĂ©judiciable en raison de l’entraĂ®nement sur divers ensembles de donnĂ©es, en particulier pour les langues autres que l’anglais, et lorsqu’il est conçu par des Ă©quipes de red teaming qualifiĂ©es Â», signalent les chercheurs. « Des dĂ©veloppeurs ou des utilisateurs malintentionnĂ©s peuvent trouver de nouvelles façons de casser nos modèles et de les utiliser pour diverses activitĂ©s malveillantes Â».

Plus tard, le fournisseur de LLM ajoutera des capacités multimodales à LLama 3.1. Il travaille notamment avec des startups pour y intégrer des fonctions d’interprétation d’images.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM