Starline Art - stock.adobe.com

Hallucinations des IA : Giskard soupçonne une fiabilité tronquée au nom de l’utilité

Après avoir évoqué son projet lors du sommet de l’IA parisien en février, Giskard a présenté les premiers résultats de son benchmark Phare. Les chercheurs du spécialiste de l’évaluation d’applications d’IA générative mettent en lumière certains mécanismes qui provoquent les hallucinations et identifient les LLM les moins risqués.

Les parangonnages consacrés à l’IA pullulent. Malgré cette profusion, certains projets se démarquent. C’est le cas de Phare (Potential Harm Assessment & Risk Evaluation), une initiative menée par Giskard. La startup française cherche ici à maintenir un classement public des grands modèles de langage en fonction des risques qu’ils représentent en matière d’hallucinations, de biais et d’équité, de générations de contenus néfastes. Il est également possible de comparer les modèles à l’aide d’un diagramme de Kiviat (Spider Graph).

L’initiative est financée par la Commission européenne, bpifrance, ainsi que par Google DeepMind. La filiale de Google a financé le projet et proposé de réaliser les benchmarks à l’aide de son framework open source LMEval auquel Giskard contribue. « Il y a une volonté publique et privée de financer l’évaluation indépendante et nous souhaitons maintenir cette initiative sur la durée », déclare Alexandre Combessie, cofondateur et CEO de Giskard.

Les tests ont été réalisés en anglais, en français et en espagnol, des langues maîtrisées par les chercheurs. Chacun d’entre eux est effectué dans les trois langues avant de produire une note moyenne.

Pour l’instant, seules les évaluations des hallucinations et de génération de contenus néfastes sont disponibles. En ce qui concerne la nocivité, l’éditeur évalue la capacité des modèles à reconnaître une situation potentiellement dangereuse. Dans ce cas-là, ils doivent produire un avertissement concernant les risques associés plutôt que de fournir ce que cherche éventuellement l’usager. À ce jeu, les fournisseurs de LLM ont effectué leur travail convenablement. « Les scores sont globalement tous au-dessus de 85 % », signale le dirigeant.

Un protocole de tests qui implique des LLM

L’évaluation des biais est accessible en bêta et vise à pousser les modèles à reconnaître les stéréotypes après avoir généré des histoires dont les personnages principaux ont des attributs spécifiques (sexe, nationalité, handicap, situation sociale, religion, etc.). « Pour l’instant, nous évaluons une forme de cohérence morale plutôt que des biais jugés positifs ou négatifs dans différentes sociétés », relate Alexandre Combessie. « Il faut encore raffiner la méthode, car les réponses des modèles sont très variables ».

Il y a un autre domaine où les résultats sont plus facilement reproductibles. « Nous avons commencé avec la thématique la plus importante et d’actualité, qui est l’hallucination », insiste le dirigeant.

Justement, cette thématique de l’hallucination est divisée en quatre « tâches » : la « factualité », la mésinformation/désinformation, le « debunking » (ou « démystification » en français) et la fiabilité de l’usage des outils des LLM.

La « factualité » correspond à la capacité des LLM à produire des réponses exactes à des questions de culture générale, sans inventer de faits. Le volet désinformation consiste à tester les modèles à partir de prompts contenant « des fausses promesses, des formulations trompeuses ou des affirmations factuellement incorrectes ».

Le debunking vise à tester la manière dont les LLM traitent de manière critique « les affirmations douteuses, y compris les pseudosciences, les théories du complot et d’autres contenus controversés ».

Les modèles sont ensuite évalués sur leur capacité à utiliser les outils dans différents scénarios, dont certains incluent des entrées « imparfaites » : des données manquantes, des arguments supplémentaires ou des prompts mal formés.

« Nous avons limité la taille des jeux de données disponibles publiquement pour éviter que Google et les autres fournisseurs de LLM s’en servent pour optimiser leur modèle sur ces tests. »
Alexandre CombessieCofondateur et CEO, Giskard

En matière d’hallucinations, les 17 modèles testés l’ont été avec environ 6 000 échantillons de questions-réponses privés et 1 600 paires publiques, disponibles depuis un dépôt Hugging Face. La nocivité est évaluée à l’aide de 1500 échantillons privés et 400 publics, tandis que Giskard a rassemblé 2400 paires d’affirmations-vérifications privées et 600 paires accessibles en open source.

La constitution de ces jeux de données commence par la collecte d’informations et l’édition de prompts pour générer une partie de ces échantillons. Les paires sont associées à des critères d’évaluation spécifiques suivant les tâches. Les prompts, les réponses souhaitées et les évaluations sont vérifiés et annotés par des utilisateurs avant d’être soumis aux LLM à éprouver.

Giskard étudie la production de huit fournisseurs : Alibaba, Anthropic, DeepSeek, Google, Meta, Mistral AI, OpenAI et xAI. Les outils de recherche sur le Web et de « Deep Search » ne sont pas enclenchés. « Avec la plupart des modèles, il est difficile de tester les compétences de recherche. Les fournisseurs en font une chasse gardée ».

À l’inverse, la startup française ne veut pas ouvrir complètement ses jeux de données aux acteurs dont elles évaluent le travail.

« Nous avons limité la taille des jeux de données disponibles publiquement pour éviter que Google et les autres fournisseurs de LLM s’en servent pour optimiser leur modèle sur ces tests », explique Alexandre Combessie.

ChatGPT n’est pas le plus résistant aux hallucinations

Premier constat, « les modèles les plus populaires auprès du grand public ne sont pas forcément les meilleurs en matière de “factualité”, de mésinformation et de debunking », note-t-il.

Ce qu’évalue précisément Giskard, c’est la robustesse face aux hallucinations, aux biais et aux éléments néfastes. En matière de résistance aux hallucinations, GPT-4o (83,89 %) n’est que le cinquième meilleur modèle derrière Claude 3.5 Haiku (86,97 %), Gemini 1.5 Pro (87,06 %), Claude 3,7 Sonnet (89,26 %) et Claude 3,5 Sonnet (91,09 %).  

A contrario, Gemma 3 27B (69,90 %), Llama 3.3-70B (73,41 %), et GPT-4o mini (74,50 %) affichent les taux de résistance les plus bas. En clair, les modèles qui propulsent ChatGPT sont respectivement cinquième et quinzième de ce classement dans cette catégorie.

Des résultats qui, selon Alexandre Combessie, suggèrent un « choix éditorial » de la part des fournisseurs de LLM. « Certains semblent prioriser les préférences utilisateurs par rapport à la “factualité” », déclare-t-il. « De fait, les utilisateurs des applications grand public, principalement des réseaux sociaux, aiment bien être dans des bulles de confirmation, échanger avec des gens qui sont globalement d’accord avec eux ».

Une hypothèse qui semble vérifiée par les scores d’un autre benchmark populaire, LMArena. « LMArena est un benchmark “crowdsourcé”, qui se base principalement sur la préférence utilisateur », explique Alexandre Combessie. « Par ailleurs, l’on constate que les deux modèles qui propulsent ChatGPT ne sont pas les meilleurs en matière de résistance aux hallucinations, sans être catastrophiques ».

Des LLM trop polis pour leur propre bien

En matière de démystification, Giskard observe un phénomène corrélé. « Nous nous sommes rendu compte que le ton initial de l’utilisateur (à quel point il est confiant dans ce qu’il affirme) joue sur les résultats de certains modèles », présente le dirigeant.

« Nous nous sommes rendu compte que le ton initial de l’utilisateur (à quel point il est confiant dans ce qu’il affirme) joue sur les résultats de certains modèles. »
Alexandre CombessieCofondateur et CEO, Giskar

Ce phénomène est nommé en anglais « sycophancy » que l’on pourrait traduire par la flagornerie ou (plus justement) l’obséquiosité. « Présenter des affirmations de manière très confiante (par exemple, “Je suis sûr à 100 % que…” ou “Mon professeur m’a dit que…”) peut entraîner une baisse des performances en matière de démystification allant jusqu’à 15 % par rapport à une formulation neutre (par exemple, “J’ai entendu dire que…”) », expliquent les chercheurs de Giskard, dans un billet posté sur Hugging Face.

Cet effet pourrait être une conséquence du processus d’apprentissage par renforcement avec feedback humain (RLHF). De fait, les fournisseurs cherchent souvent à obtenir un modèle « agréable et aidant ». Les modèles d’Anthropic et de Meta seraient moins sensibles à ce phénomène.

Une petite instruction peut affecter la « factualité » des réponses

De même, le fait d’ajouter des instructions complémentaires, comme réclamer une réponse brève à une question « dégrade la “factualité” de la plupart des modèles testés ». « Dans les cas extrêmes, cela s’est traduit par une baisse de 20 % de la résistance aux hallucinations », ajoutent-ils.

Cette fois-ci, forcer le modèle à choisir entre la « factualité » (qui nécessiterait de produire une réponse plus longue ou de rejeter la question) et l’utilité (donc de s’en tenir à la demande de l’usager) provoquerait ce déraillement. Du fait du choix éditorial décrit plus haut lié au processus RLHF, les LLM privilégieraient la deuxième option. Une approche confirmée par la logique qui animait les chercheurs lors de l’entraînement de Gemma 2. « La vérité n’est pas la meilleure réponse », affirmait alors Armand Joulin, principal scientist chez Google DeepMind.

Le CEO de Giskard émet également l’hypothèse que les modèles plus « petits » (moins de 70 milliards de paramètres) sont moins résistants aux hallucinations. Il y a toutefois des exceptions notables. Si Gemma 3 27B fait figure de bon dernier, les modèles Llama 3.3 70B, Llama 3.1 405B et Llama 4 Maverick (400 milliards de paramètres, 17 actifs) de Meta, loin d’être petits, sont dans le bas du classement, derrière Qwen 2.5 Max, Grok 2, Mistral Small 3.1 24B et DeepSeek V3.

Ce qui est plus probant, c’est qu’en moyenne, les derniers modèles en date ne sont pas meilleurs que leurs aînés. Tous scores confondus (résistance aux hallucinations, aux biais et génération de contenus néfastes), Gemini 1.5 Pro et Claude 3.5 Haiku sont meilleurs que Gemini 2.0 Flash et Claude 3,7 Sonnet. « Nous avons été surpris concernant les scores de Claude 3.7 Sonnet », commente Alex Combessie. Le dernier modèle en date d’Anthropic pèche surtout par une plus faible capacité à utiliser des outils.

Un éclairage à prolonger

« Exécuter la batterie de tests que nous avons mis en place prend plus de trois jours. Avec les modèles de raisonnement, ce serait cinq à dix fois plus long. »
Alexandre CombessieCofondateur et CEO, Giskard

Pour l’instant, le classement ne couvre pas les modèles de raisonnement « pur jus ». « Actuellement, exécuter la batterie de tests que nous avons mis en place prend plus de trois jours. Avec les modèles de raisonnement, ce serait cinq à dix fois plus long, ce qui représenterait plusieurs semaines d’exécution », justifie Alexandre Combessie. De même, les « traces de réflexion » – la manière dont ces LLM produisent leurs réponses argumentées – « ne sont pas standards ».

Outre les jeux de données et la page Web dédiée à Phare, les chercheurs de Giskard ont prévu de publier un article de recherche présentant la méthodologie et les résultats du benchmark.

Après le raffinement des évaluations liées aux biais dont les résultats seront publiés au cours de l’été, Giskard évaluera la résistance aux « abus intentionnels », c’est-à-dire aux tentatives de jailbreaking et d’injection de prompts.

Pour approfondir sur IA appliquée, GenAI, IA infusée