Conseil

Cet article fait partie de notre guide: IA générative : les grandes catégories de LLM

IA générative : comprendre les benchmarks génériques

À quoi correspondent les scores diffusés par les concepteurs de modèles d’IA générative ? Ce conseil revient sur les benchmarks les plus utilisés par les fournisseurs de LLM et explique leur rôle.

par

Gaétan Raoul, LeMagIT

Publié le: 13 mai 2024

Entre les solutions propriétaires d’OpenAI, d’Anthropic, de Google Cloud, d’AWS ou encore de Cohere et la vaste quantité de modèles « open weight », les entreprises ont l’embarras du choix au moment de sélectionner un grand modèle de langage.

Pour vanter les performances de leurs modèles, les équipes de recherche et les entreprises mettent en avant des scores relatifs à des benchmarks. Toutefois, l’objectif n’est que trop peu souvent explicité par les éditeurs de modèles. Le fruit du travail des équipes de recherche devient alors des arguments commerciaux… sans que les usagers finaux aient une réelle compréhension des scores affichés.

Le problème n’est pas nouveau. Il existait déjà à l’émergence du traitement du langage (NLP) plus traditionnel. Il a juste été exacerbé par la popularité de l’IA générative.

Afin de comprendre si ces scores ont un véritable intérêt pour les entreprises, il faut se pencher sur la structure, le rôle et la signification des benchmarks. C’est l’objet de ce conseil.

Qu’est-ce qu’un benchmark NLP ?

Dans le domaine de l’intelligence artificielle, un benchmark correspond à un jeu de données d’évaluation permettant d’évaluer les performances des algorithmes au regard de l’accomplissement de tâches spécifiques. Chaque jeu de données d’évaluation contient un certain nombre d’exemples, mais le score du modèle est exprimé en pourcentage.

En matière d’IA générative, la plupart des fournisseurs de modèles distinguent trois grandes catégories de benchmarks. Voilà la méthode de classement de Mistral AI, que nous réutilisons pour sa clarté.

Ceux relatifs à la compréhension du langage et/ou du « sens commun » ;
aux connaissances générales et avancées ;
et aux mathématiques et la programmation.

De fait, les scores des benchmarks sont très souvent classés dans cet ordre d’apparition. Certains d’entre eux, dont MMLU, ARC et Winogrande sont à la croisée entre la première et la deuxième catégorie.

Ajoutons que les concepteurs de modèles d’IA générative entraînent ce qu’ils appellent des collections ou des familles de LLM.

Ces collections sont constituées de deux types de grands modèles de langage correspondant à deux grandes phases d’entraînement : le préentraînement et le fine-tuning.

Lors du préentraînement, le réseau de neurones est nourri d’une vaste quantité de données issue d’un premier niveau de filtrage permettant d’obtenir un modèle de fondation. Lors du fine-tuning, il subit plusieurs cycles d’entraînement, consistant en sa spécialisation dans un domaine spécifique, c’est-à-dire le suivi d’instructions et/ou la conduite de conversation avec un humain. Les benchmarks sont généralement effectués une première fois après le préentraînement et une deuxième fois après le fine-tuning.

Dès lors, ces jeux de données ne sont pas exclusivement des outils de tests. Ils peuvent servir à entraîner un modèle NLP ou NLG. Voici une sélection des benchmarks les plus répandus. Sous forme de mention honorable, l’on peut citer DROP (Discrete Reasoning over Paragraphs), dont le rôle est de mettre à l’épreuve les capacités d’analyse textuelle d’un modèle NLP/NLG, et les plus récents AGI Eval et Big Bench, censés attester qu’un LLM se rapproche des capacités de raisonnement humaines.

Les benchmarks de compréhension du langage et du sens commun

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

HellaSwag est un benchmark de complétion de phrases en langue anglaise conçu en 2019 par des chercheurs de l’Institut Allen. Il est dérivé par le projet SWAG, qui consistait à tester si un modèle NLP était capable de trouver la bonne suite d’une description d’une vidéo. HellaSwag reprend cette idée et s’appuie sur des descriptions de vidéo du benchmark d’ActivityNet, mais aussi sur des exemples tirés d’articles de WikiHow. Dans cet exercice, le modèle doit prédire la bonne fin d’un texte (le contexte) parmi quatre options, dont trois sont volontairement erronées (c’est-à-dire des exemples contradictoires). Il s’agit de vérifier la capacité du modèle à comprendre la relation entre les mots et à identifier la pertinence d’une phrase dans un contexte donné. Le benchmark contient surtout des exemples permettant de tester la propension d’un modèle à prédire des résultats logiques. Le score d’un humain moyen est de 95 %.

WinoGrande

Porté par l’Institut Allen, WinoGrande est inspiré du Winograd Schema Challenge, un parangonnage créé en 2011 rassemblant 273 problèmes liés à des pronoms conçus par des experts. Ce benchmark, censé être impossible à passer par des modèles NLP avait rapidement été mis à mal par des modèles disposant d’une architecture Transformer.

Les chercheurs de l’Institut Allen ont repris l’approche pour créer 44 000 problèmes à l’aide de techniques de crowdsourcing et de mitigation de biais. Il s’agit là pour le modèle de trouver le bon nom dans un texte à trou en anglais à partir de deux choix possibles. Là encore, il s’agit de tester la logique du modèle et sa capacité à comprendre l’utilisation des pronoms dans le texte et du contexte à sa disposition. Un humain obtient un score moyen de 94 % à cet exercice.

ARC-C et ARC-E (AI2 Reasoning Challenge – Challenge et Easy)

Lui aussi soutenu par l’Institut Allen, ARC est un jeu de données ouvert de type QCM contenant plus de 7 700 questions (quatre options de réponses par question) tirées d’examens de sciences naturelles américains équivalents du niveau CE2 à la quatrième. Les jeux d’entraînement et de test sont divisés en deux parties : l’une difficile (Challenge) avec plus de 2 500 paires de questions-réponses, auxquelles deux algorithmes différents ont répondu de manière incorrecte ; l’autre est dite « facile » (Easy). Au total, il contient plus de 14 millions de phrases en anglais.

Créé en 2018, celui-ci connaît plusieurs variantes, dont ARC-DA (pour Direct Answer), visant à répondre à des questions ouvertes.

MMLU (Measuring Massive Multitask Language Understanding)

MMLU est une abréviation que l’on pourrait traduire en la « mesure de la compréhension du langage en mode multitâche massif ». Concocté entre 2020 et par des chercheurs de l’université de Berkeley, de Chicago et de l’Illinois (Urbana Champaign), le benchmark a été conçu pour tester des modèles autorégressifs, en premier lieu GPT-3. Le parangonnage rassemble au total plus de 15 900 questions-réponses collectées manuellement et réparties entre un set de développement « few shot », un jeu de validation et un autre de test. Le benchmark couvre 57 sujets différents et chaque sujet s’est vu attribuer au moins 100 questions-réponses. Ces sujets touchent aux connaissances « élémentaires » dans trois grands domaines : les humanités (loi, histoire, philosophie, religion, etc.), les sciences sociales (économie, politique, sociologie, géographie, psychologie, etc.), les sciences dures, les technologies, l’ingénierie, et les mathématiques (STIM).

Un quatrième domaine plus petit, dénommé « autre » rassemble les questions sur la médecine professionnelle, la gestion, la finance, la comptabilité, le marketing, certains faits internationaux et des statistiques sur la pauvreté à travers le monde.

Dans certains domaines de connaissances, les exercices sont répartis par difficulté, ici par niveau scolaire : lycée et université. Le jeu de données MMLU est constitué de plusieurs tests de type question à choix multiple (QCM).

Le benchmark est en langue anglaise, est principalement fourni en exemple américain, mais couvre des connaissances générales sur la culture occidentale.

Les benchmarks de connaissances

TriQA (TriviaQA)

TriviaQA est un benchmark de compréhension constitué manuellement grâce au crowdsourcing en 2017 pour supplanter le Stanford Question Answering DataSet (SQuAD). Il contient plus de 650 000 triplets de questions-réponses-preuves issus de plus de 660 000 documents collectés sur Wikipédia et le Web. Ici, point de questionnaire à choix multiple. Le modèle doit répondre « librement », en langage naturel à la question posée. À la différence que les réponses portent sur des sujets simples, « triviaux » et de cultures générales, principalement anglo-saxonnes.

TruthfulQA

Codéveloppé en 2021 par des chercheurs de l’université d’Oxford et d’OpenAI, TruthfulQA vise à juger si la réponse d’un LLM à une question partage ou non une idée répandue chez les humains, mais fausse. Le jeu de données comprend 817 questions-réponses réparties dans 38 catégories dans des domaines sanitaires, légaux, financiers, politiques, etc.

Le jeu de données contient les sources des réponses et porte majoritairement sur des enjeux factuels. Le score sur 100 indique la propension d’un LLM à halluciner.

Dans le jeu de données, les paires de questions-réponses sont catégorisées selon si elles sont, ou non, sujettes à des idées fausses, des superstitions, des propos conspirationnistes, des mythes, etc.

Natural Questions (Natural QS)

Le corpus Natural Questions a été constitué en 2019 par l’équipe derrière le moteur de recherche Google. Il comprend plus de 307 000 exemples d’entraînement et plus de 7 800 exemples de tests. Ces exemples correspondent à des requêtes réelles (anonymisées) effectuées sur Google et des réponses extraites de Wikipédia. Deux types de réponses sont présentées : longues et courtes. Les modèles testés doivent produire la réponse la plus proche de l’annotation fournie dans le data set. Des métriques sont fournies par les chercheurs afin d’évaluer des systèmes de questions-réponses (de type chatbot).

GPQA (Google Proof Q&A)

À l’inverse de Natural QS, GPQA a été imaginé en 2023 pour réunir des questions difficiles à répondre à partir du moteur de recherche de Google (d’où la notion de « Google Proof »). Ce projet porté par des chercheurs de l’Université de New York, de Cohere et d’Anthropic rassemble 448 questions à choix multiple dans des domaines « expert » : la physique, la biologie, la chimie. Ici, les interrogations sont vouées à être « extrêmement difficiles » à traiter. « Des experts qui poursuivent des doctorats dans les domaines correspondants obtiennent un score de 65 % (74 % si l’on ne tient pas compte des erreurs que les experts ont identifiées rétrospectivement) », avancent les créateurs de GPQA. Un sous-jeu de données comprenant 198 exemples est censé contenir la « crème de la crème » de ces questions auxquelles il est difficile de répondre (GPGA Diamond). GPT-4 n’obtiendrait que 39 % à cet examen particulièrement complexe.

Les benchmarks de mathématiques et de programmation

MathQA

Imaginé par des chercheurs de l’Institut Allen, MathQA est un jeu de données rassemblant 37 200 problèmes mathématiques écrits en anglais et organisés sous forme de questionnaire à choix multiples.

GSM8K

Pensé par OpenAI, ce jeu de données comprend 8 500 exemples de problèmes mathématiques de niveau primaire à collège, rédigés en anglais. Environ 7 500 d’entre eux servent à l’entraînement et 1 000 aux tests des modèles d’IA générative. Le benchmark pensé par des chercheurs d’OpenAI doit permettre au LLM testé de répondre librement en réalisant des opérations arithmétiques simples (addition, multiplication, soustraction, division), en deux à huit étapes.

MATH

Mis au point par des chercheurs d’UC Berkeley, MATH est un benchmark contenant 12 500 problèmes de mathématiques extraits de compétitions universitaires, dont plusieurs séries d’exercices tirées d’Art of Problem Solving et les solutions détaillées étape par étape.

Il est à la fois utilisé pour entraîner les LLM à produire des réponses et leurs explications, mais également pour prouver leur capacité de raisonnement et leur performance en mathématiques avancées.

HumanEval

Autre benchmark imaginé par OpenAI pour tester Codex (le LLM originellement pensé pour GitHub Copilot), HumanEval porte sur 164 problèmes uniques, écrits à la main, liés à la programmation en Python, commentée en anglais. Ceux-là ne doivent pas être utilisés lors de l’entraînement d’un modèle. HumanEval doit permettre de déterminer le niveau de compréhension et de génération de code d’un modèle, ainsi que ses capacités à faire appel au bon raisonnement mathématique associé.

MBPP (Mostly Basic Python Programming)

Issu des travaux de Google Research, MBPP est un jeu de données comprenant 974 problèmes de programmation en Python qui ont été crowdsourcés. Ces exemples sont normalement maîtrisés par un programmeur Python débutant, et couvrent, entre autres, les fondamentaux, les standards du langage ainsi que les librairies associées. Un problème correspond à la description de la tâche à effectuer, la solution et trois tests automatisés. MBPP a été lancé en même temps que MathQA-Python, un autre benchmark portant sur la programmation Python, contenant davantage de descriptions complexes du problème à résoudre et mixées avec la méthode de MathQA.

À retenir

La liste de benchmarks évoqués ci-dessus démontre clairement que les capacités de génération de contenus des LLM sont moins testées que leur capacité de compréhension, de complétion ou de réponse à une question. Sans parler de l’omniprésence de la langue anglaise. Pour autant, suivant le cas d’usage, des scores élevés dans certains benchmarks semblent de bon augure. Par exemple, il serait totalement contre-intuitif de sélectionner un LLM avec un score bas à HumanEval ou MBPP, si son rôle est de générer du code dans l’IDE d’un développeur.

Il faut aussi préciser qu’aux scores exprimés en pourcentage, des mentions indiquent la procédure de tests. Deux de ces procédures ressortent plus particulièrement : la technique de prompting « Chain of Though » (CoT), consistant à détailler étape par étape ce que l’on souhaite obtenir du modèle et le nombre « d’exemples » (shots) accordés au modèle pour obtenir une réponse. Ainsi, certains acteurs comme Meta préfèrent utiliser 8 exemples avec GSM8K, tandis que d’autres – dont Mistral AI et DBRX – n’en utilisent que cinq. D’autres tests, dont TruthFulQA, peuvent être considérés invalides si l’on utilise ne serait-ce qu’un exemple (0 shot).

Il est évident que ces outils d’évaluation émanent d’une poignée d’acteurs : l’Institut Allen, Google et OpenAI sont parmi ceux qui ont produit le plus de benchmarks réutilisés. À notre connaissance, il n’y a pas de standards officiels portés par une fondation ou une organisation de type ISO. Une remarque appuyée par l’Université de Stanford dans son AI Index Report 2024. Mais en sus de procédures spécifiques, les benchmarks « maison » se multiplient pour tenter de mettre en avant des fonctions nouvelles, notamment la longueur de la fenêtre de contexte ainsi que le traitement d’images et de vidéo.