Getty Images/iStockphoto

LlaMa : Meta veut simplifier l’accès des modèles de langage aux chercheurs

La société mère de Facebook a publié vendredi dernier LlaMa, un grand modèle NLP (LLM). Celui-ci est accessible à travers un programme à accès limité pour des participants triés sur le volet. Meta positionne son projet comme une alternative responsable aux modèles de fondation ayant donné naissance aux agents conversationnels de l’alliance Microsoft-OpenAI, et de Bard de Google.

par

Gaétan Raoul, LeMagIT
Shaun Sutner, Senior News Director

Publié le: 28 févr. 2023

Lorsque AWS s’est lancé dans la bataille en concluant un partenariat avec la plateforme HuggingFace, destinée aux développeurs de modèle de langage, William McKeon-White, analyste chez Forrester, a fait remarquer que les géants de la technologie sont obligés de se suivre les uns les autres, lorsqu’ils découvrent un nouveau marché.

« Là où l’un va, les autres doivent y aller. Sinon, ils risquent de perdre l’accès à un marché gigantesque », a-t-il déclaré à TechTarget [Propriétaire du MagIT].

Pour Meta, qui a été pionnier dans la recherche et le développement de l’IA au fil des ans en rendant souvent sa technologie open source, la présentation de LlaMa lui permet de conserver une existence médiatique en la matière. Tout comme LaMDA chez Google, LlaMa pourrait devenir le modèle de fondation capable de propulser un agent conversationnel à la ChatGPT.

Ce serait de bonne guerre. ChatGPT a captivé l’imagination du monde entier depuis son lancement en novembre de l’année dernière, plusieurs années après la sortie de son réseau de neurones NLG, GPT-3, en 2020.

« En réalité, les recherches sur l’IA menées par Meta, Google et d’autres ont conduit à ChatGPT. »

Kashvap KomplellaAnalyste, RPA2AI Research

Microsoft est l’un des premiers bailleurs de fonds de la jeune société d’IA OpenAI. La firme a beaucoup misé sur cette technologie en investissant 10 milliards de dollars dans la créatrice de ChatGPT. La société a ajouté certaines des capacités de GPT-3 à son moteur de recherche Bing et a promis de les déployer plus largement dans le reste de son univers de logiciels d’entreprise.

« Meta et Google ont cédé leur place de leader de l’IA à Open AI, comme le montre la viralité de ChatGPT. Mais en réalité, les recherches sur l’IA menées par Meta, Google et d’autres ont conduit à ChatGPT », avance de son côté Kashyap Kompella, analyste chez RPA2AI Research.

Toutefois, tant ChatGPT que Google Bard ont pataugé au cours des premiers mois et des premières semaines, commettant des gaffes embarrassantes. Ces erreurs démontrent que beaucoup de travail demeure nécessaire pour rendre ces outils compatibles avec un usage à grande échelle.

C’est dans ce contexte que Meta, dans son blog d’introduction à LlaMa, présente son propre LLM dans le cadre de son « engagement en faveur de la science ouverte ».

La question de la transparence taraude Meta

En ce sens, Meta a introduit LLaMa sous une licence non commerciale « pour maintenir l’intégrité et empêcher les abus ». L’entreprise ne précise pas la licence utilisée pour le modèle, disponible à la demande. En revanche, l’exécutable permettant d’inférer le modèle est sous licence GPLv3. En clair, les utilisateurs peuvent l’exploiter dans un cadre commercial, mais ils devront laisser le code du modèle ouvert.

Pour le reste, Meta se veut le plus transparent possible. Ainsi, les chercheurs stipulent que tous les jeux de données proviennent du domaine public. L’importance de chaque data set dans l’entraînement de LlaMa est exprimé en pourcentage. Par exemple, Meta a entraîné son modèle sur du code en provenance de GitHub (4,5 % de l’ensemble du data set) sous licence Apache, BSD et MIT. Les chercheurs ont supprimé les expressions les plus régulières et le code « passe partout ». La grande majorité des données (67 %) proviennent de cinq extractions en langue anglaise du Web réalisé entre 2017 et 2020 par l’association CommonCrawl. Environ 15 % des données d’entraînement émanent de C4, des extractions filtrées en provenance de la même source. Les fiches Wikipédia (4,5 %) et les livres (4,5 %) sont écrits dans 20 langues différentes. Peu d’équipes, hormis celles derrière GPT-NeoX, OPT et BLOOM ont fait cet effort de conserver des données ouvertes, selon Meta AI.

Surtout, les modèles comportant plusieurs centaines de milliards de paramètres (voire plusieurs milliers de milliards de paramètres) sont difficiles à évaluer et à comprendre. Non seulement ils requièrent une puissance de calcul conséquente pour les exécuter, mais aussi leur complexité « entraverait les efforts visant à améliorer leur robustesse et à atténuer les problèmes connus, tels que les biais, la toxicité et la possibilité de générer des informations erronées », dixit Meta.

Avec l’instabilité de certains des plus grands LLM (pour « Large Language Model »), cet accent mis sur la prudence et la petite échelle est le bienvenu, considère Kashyap Kompella.

« Les LLM [Large Language models] sont assez puissants et doivent être manipulés avec précaution. »

Kashvap KomplellaAnalyste, RPA2AI Research

« Meta et Google utilisent déjà plusieurs LLM sous leur capot », indique-t-il. « Les LLM sont assez puissants et doivent être manipulés avec précaution. Dans un sens, je suis heureux que Meta n’aille pas trop vite et ne casse pas tout sur ce sujet ».

Ainsi, les chercheurs de Meta AI, dont la majorité sont français, ont tenté avec LlaMa de réduire le nombre de paramètres du modèle de fondation tout en essayant d’obtenir des performances équivalentes voire supérieures à GPT-3 ou d’autres LLM chers à entraîner et à inférer.

Une révision de l’architecture pour diminuer le nombre de paramètres

Les chercheurs ont adapté d’une architecture « transformer » à l’aide de techniques à l’état de l’art. Par exemple, ils se sont inspirés de la technique de prénormalisation des entrées utilisées dans GPT-3. D’autres méthodes d’activation de fonctions et de rotation des embeddings ont été empruntées respectivement à PaLM, un modèle développé par Google (540 milliards de paramètres) et à GPTNeo (EleutherAI). Plusieurs approches d’optimisation ont été choisies et implémentées pour réduire la consommation de mémoire vive vidéo.

Ainsi, LLaMa est décliné en quatre versions contenant respectivement 7, 13, 33 et 65 milliards de paramètres. Pour rappel, GPT-3 dispose de 175 milliards de paramètres. Quand ce dernier a été entraîné sur des clusters de 10 000 GPU Nvidia, les chercheurs de Meta AI ont utilisé 2048 GPU Nvidia A100 équipés de 80 Go de VRAM HBM2 ECC (entre 14 000 et 18 000 euros HT l’unité) et interconnectés à l’aide du système NVLink.

La forme finale de LlaMa a été entraînée pendant 21 jours sur un corpus de 1,4 billion de tokens (380 tokens/sec/GPU) entre décembre 2022 et février 2023. Là où GPT-3 175B dispose de 96 têtes d’attention et de 96 couches de neurones pour 12 888 dimensions, LlaMa-65B dispose de 64 têtes d’attention, de 80 couches et de 8 192 dimensions.

À l’inférence, Llama-13B serait plus performant que GPT-3 175B alors qu’il est « 10 fois plus petit », selon les chercheurs. Ils remarquent également qu’un modèle moins doté en paramètres commettrait moins d’erreurs de prédiction, donc de biais. Surtout, il serait beaucoup moins gourmand en ressources. Même la déclinaison du modèle contenant 65 milliards de paramètres peut s’inférer sur un seul GPU V100 doté de 32 Go de VRAM (autour de 10 000 euros HT).

LlaMa, un modèle plus performant et moins cher à exécuter, selon Meta

Selon un benchmark concocté par Tim Dettmers, doctorant à l’Université de Washington, la carte graphique grand public RTX 4090 (24 Go de VRAM GDDR6X, entre 1 900 et 2 500 euros TTC) et le GPU conçu pour les stations de travail RTX A6000 (48 Go de VRAM GDDR6, un peu moins de 6 000 euros HT) battent à plate couture la Nvidia Tesla V100 lors de tests d’inférence. Le but premier de Meta est donc la démocratisation des LLM dans des laboratoires de recherche moins dotés.

De leur côté, les chercheurs ont tenté d’estimer la consommation d’énergie et l’émission de tonnes équivalent carbone de LlaMa. Selon leur calcul, l’entraînement de LlaMa et de ses déclinaisons aurait réclamé 5 mois au total, soit une consommation estimée de 2 638 MWh et 1 015 tonnes, équivalent CO2. Selon une estimation des chercheurs de Google, entraîner GPT-3 générerait 552 tonnes équivalent carbone et 1 287 MWh. « Nous espérons que la diffusion de ces modèles contribuera à réduire les futures émissions de carbone puisque l’entraînement est déjà fait, et que certains des modèles sont relativement petits et peuvent être exécutés sur un seul GPU », avancent les chercheurs.

Malgré les différentes phases d’affinage et de préparation, LlaMa n’est pas parfait. L’équipe Meta AI a établi une cartographie et un score de toxicité, afin d’identifier les biais les plus récurrents. Pour cela, elle a soumis LlaMa à différents benchmarks (une liste exhaustive est disponible depuis la fiche du modèle).

« Notre modèle est particulièrement biaisé dans la catégorie de la religion […], suivie par l’âge et le sexe. Nous nous attendons à ce que ces biais proviennent de CommonCrawl, malgré les multiples étapes de filtrage », écrivent les chercheurs.

Sa mise à disposition pour la communauté de la recherche permettrait de s’attaquer plus efficacement à ces biais. « Il y a encore des recherches à faire pour aborder les risques de biais, de commentaires toxiques et de phénomènes de distorsion dans les grands modèles linguistiques. Comme d’autres modèles, LLaMA partage ces défis », concluent-ils.

En clair, Meta a bien conscience d’avoir besoin de toute la communauté de la recherche pour créer l’émulsion nécessaire afin de créer le prochain ChatGPT, de préférence éthique et moins gourmand en énergie.

LlaMa : Meta veut simplifier l’accès des modèles de langage aux chercheurs

La question de la transparence taraude Meta

Une révision de l’architecture pour diminuer le nombre de paramètres

LlaMa, un modèle plus performant et moins cher à exécuter, selon Meta

Pour approfondir sur Intelligence Artificielle et Data Science

Hallucinations des IA : Giskard soupçonne une fiabilité tronquée au nom de l’utilité

Pour récupérer des GPU, OpenAI débranchera GPT-4.5 et le remplace par GPT-4.1

Llama 4 : Meta s’inspire de ses concurrents chinois

Tout comprendre à DeepSeek : les faits derrière le « buzz »