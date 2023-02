Lorsque AWS s’est lancé dans la bataille en concluant un partenariat avec la plateforme HuggingFace, destinée aux développeurs de modèle de langage, William McKeon-White, analyste chez Forrester, a fait remarquer que les géants de la technologie sont obligés de se suivre les uns les autres, lorsqu’ils découvrent un nouveau marché.

« Là où l’un va, les autres doivent y aller. Sinon, ils risquent de perdre l’accès à un marché gigantesque », a-t-il déclaré à TechTarget [Propriétaire du MagIT].

Pour Meta, qui a été pionnier dans la recherche et le développement de l’IA au fil des ans en rendant souvent sa technologie open source, la présentation de LlaMa lui permet de conserver une existence médiatique en la matière. Tout comme LaMDA chez Google, LlaMa pourrait devenir le modèle de fondation capable de propulser un agent conversationnel à la ChatGPT.

Ce serait de bonne guerre. ChatGPT a captivé l’imagination du monde entier depuis son lancement en novembre de l’année dernière, plusieurs années après la sortie de son réseau de neurones NLG, GPT-3, en 2020.

Microsoft est l’un des premiers bailleurs de fonds de la jeune société d’IA OpenAI. La firme a beaucoup misé sur cette technologie en investissant 10 milliards de dollars dans la créatrice de ChatGPT. La société a ajouté certaines des capacités de GPT-3 à son moteur de recherche Bing et a promis de les déployer plus largement dans le reste de son univers de logiciels d’entreprise.

« Meta et Google ont cédé leur place de leader de l’IA à Open AI, comme le montre la viralité de ChatGPT. Mais en réalité, les recherches sur l’IA menées par Meta, Google et d’autres ont conduit à ChatGPT », avance de son côté Kashyap Kompella, analyste chez RPA2AI Research.

Toutefois, tant ChatGPT que Google Bard ont pataugé au cours des premiers mois et des premières semaines, commettant des gaffes embarrassantes. Ces erreurs démontrent que beaucoup de travail demeure nécessaire pour rendre ces outils compatibles avec un usage à grande échelle.

C’est dans ce contexte que Meta, dans son blog d’introduction à LlaMa, présente son propre LLM dans le cadre de son « engagement en faveur de la science ouverte ».

La question de la transparence taraude Meta

En ce sens, Meta a introduit LLaMa sous une licence non commerciale « pour maintenir l’intégrité et empêcher les abus ». L’entreprise ne précise pas la licence utilisée pour le modèle, disponible à la demande. En revanche, l’exécutable permettant d’inférer le modèle est sous licence GPLv3. En clair, les utilisateurs peuvent l’exploiter dans un cadre commercial, mais ils devront laisser le code du modèle ouvert.

Pour le reste, Meta se veut le plus transparent possible. Ainsi, les chercheurs stipulent que tous les jeux de données proviennent du domaine public. L’importance de chaque data set dans l’entraînement de LlaMa est exprimé en pourcentage. Par exemple, Meta a entraîné son modèle sur du code en provenance de GitHub (4,5 % de l’ensemble du data set) sous licence Apache, BSD et MIT. Les chercheurs ont supprimé les expressions les plus régulières et le code « passe partout ». La grande majorité des données (67 %) proviennent de cinq extractions en langue anglaise du Web réalisé entre 2017 et 2020 par l’association CommonCrawl. Environ 15 % des données d’entraînement émanent de C4, des extractions filtrées en provenance de la même source. Les fiches Wikipédia (4,5 %) et les livres (4,5 %) sont écrits dans 20 langues différentes. Peu d’équipes, hormis celles derrière GPT-NeoX, OPT et BLOOM ont fait cet effort de conserver des données ouvertes, selon Meta AI.

Surtout, les modèles comportant plusieurs centaines de milliards de paramètres (voire plusieurs milliers de milliards de paramètres) sont difficiles à évaluer et à comprendre. Non seulement ils requièrent une puissance de calcul conséquente pour les exécuter, mais aussi leur complexité « entraverait les efforts visant à améliorer leur robustesse et à atténuer les problèmes connus, tels que les biais, la toxicité et la possibilité de générer des informations erronées », dixit Meta.

Avec l’instabilité de certains des plus grands LLM (pour « Large Language Model »), cet accent mis sur la prudence et la petite échelle est le bienvenu, considère Kashyap Kompella.

« Les LLM [Large Language models] sont assez puissants et doivent être manipulés avec précaution. » Kashvap KomplellaAnalyste, RPA2AI Research

« Meta et Google utilisent déjà plusieurs LLM sous leur capot », indique-t-il. « Les LLM sont assez puissants et doivent être manipulés avec précaution. Dans un sens, je suis heureux que Meta n’aille pas trop vite et ne casse pas tout sur ce sujet ».

Ainsi, les chercheurs de Meta AI, dont la majorité sont français, ont tenté avec LlaMa de réduire le nombre de paramètres du modèle de fondation tout en essayant d’obtenir des performances équivalentes voire supérieures à GPT-3 ou d’autres LLM chers à entraîner et à inférer.