kirill_makarov - stock.adobe.com

Les hallucinations, un problème d’évaluation, selon OpenAI

D’après les chercheurs de l’entreprise dirigée par Sam Altman, les hallucinations sont mathématiquement inévitables. Elles sont amplifiées par des modèles de récompense et des tests « qui pénalisent l’incertitude ».

Même si les données d’entraînement étaient parfaitement vraies, les modèles de langage continueraient d’halluciner. C’est ce que conclut une étude menée par des chercheurs d’OpenAI.

Un défaut inhérent à la prédiction du prochain mot

Comme le rappelle OpenAI, « les hallucinations sont des affirmations plausibles, mais fausses, des modèles de langage ».

Ce phénomène serait en partie dû à la minimisation d’un objectif statistique lors du préentraînement.

Lors de cette première phase, les modèles apprennent la distribution du langage dans un grand corpus de texte. Ils ont pour objectif de prédire le mot suivant. Mathématiquement, cet exercice peut occasionner des erreurs. De plus, les fournisseurs n’opèrent pas de classification négative ou positive des affirmations contenues dans les données d’entraînement. L’apprentissage est non supervisé.

Dans cette logique, les LLM pourraient commettre de nombreuses erreurs, dont les fautes d’orthographe. Ils ont pourtant tendance à les éviter. Il y a suffisamment de données pour que les modèles retiennent les distributions les plus courantes. De fait, les éditeurs de livres et de sites Web font de leur mieux pour minimiser ces erreurs dans leurs productions. Dans d’autres circonstances, le LLM n’identifie pas de « patterns » à mémoriser. C’est le cas de la majorité des dates associées à des faits ou des personnes.

Oui, mais pourquoi les hallucinations persistent après le post-entraînement, phase dont l’un des objectifs est d’en amenuiser les effets ? Pourquoi les LLM ont-ils tendance à générer, sans nuance, des réponses erronées plutôt que de produire un résultat partiel ou d’exprimer un doute ?

Les modèles de récompense et les benchmarks sur le banc des accusés

Là encore, les chercheurs d’OpenAI identifient un problème statistique.

Lors du post-entraînement, un modèle de récompense est utilisé pour « aligner son comportement sur les préférences humaines ».

Ce système de récompense ressemble, d’après les chercheurs d’OpenAI, à la notation d’un questionnaire à choix multiple. En clair, un modèle reçoit un bon point quand il trouve la réponse attendue, et aucun lorsqu’il ne préfère pas répondre ou qu’il affirme ne pas savoir.

Le LLM tentera alors d’obtenir le bon point, quitte à « deviner » ou à « bluffer ». Un comportement qu’il partage avec certains humains, notent les chercheurs.

Or ce système de notation est généralisé. Il est même un gage de performance pour la plupart des fournisseurs de LLM (OpenAI en tête), quand il n’est pas un pur élément marketing.

« De nombreux benchmarks de modèles de langage reflètent les examens standardisés destinés aux humains, en utilisant des mesures binaires telles que la précision ou le taux de réussite », indiquent les employés d’OpenAI.

C’est le cas des parangonnages GPQA, MMLU Pro, IFEval, Omni-Math, MATH, SWE-bench ou encore HLE.

« L’optimisation des modèles pour ces benchmarks peut donc favoriser les hallucinations », concluent les chercheurs d’OpenAI. « Les humains apprennent la valeur de l’expression de l’incertitude en dehors de l’école, dans l’école de la vie. En revanche, les modèles linguistiques sont principalement évalués à l’aide de tests qui pénalisent l’incertitude. Ils sont donc toujours en mode “examen”. En termes simples, la plupart des évaluations ne sont pas alignées ».

C’est « l’abondance » de tels tests qui influeraient sur les hallucinations, quand bien même les techniques pour les amenuiser fonctionnent partiellement.

Ce phénomène s’ajouterait aux éventuelles causes déjà identifiées par la communauté scientifique. Elles incluent les problèmes de distribution, l’inversion d’énoncé dans un prompt, le « Garbage in, Garbage Out ». Les scientifiques citent également la randomisation lors de la génération (décodage), l’effet boule de neige (une petite erreur de prédiction peut en engendrer beaucoup d’autres). La difficulté d’atteindre la généralisation à partir d’exemples rares, ou encore l’apprentissage d’associations corrélées (et non causales) sont aussi mentionnés.

Le mécanisme RAG est effectif, mais loin d’être parfait

Il y a pourtant une solution vantée par les acteurs du marché : le mécanisme RAG (Retrieval Augmented Generation). Il réduit les hallucinations. Plusieurs articles de recherche l’attestent. Ce n’est malheureusement pas la panacée, jugent les auteurs chez OpenAI. « Le système de notation binaire lui-même continue de récompenser les suppositions lorsque la recherche ne permet pas d’obtenir une réponse fiable. De plus, la recherche peut ne pas aider en cas d’erreurs de calcul, comme dans l’exemple du comptage de lettres, ou d’autres hallucinations intrinsèques ».

Si certains de ces problèmes sont difficiles à résoudre, modifier les évaluations est à la portée des fournisseurs de LLM, considère OpenAI.

Il faudrait « pénaliser plus fortement les erreurs que l’incertitude ». Certains créateurs d’évaluation ont pris en compte ce point dans de nouveaux benchmarks.

Revoir les évaluations les plus populaires

De son côté, OpenAI recommande la révision des « évaluations basées sur l’exactitude les plus utilisées pour décourager les hypothèses ».

Techniquement parlant, il s’agirait d’introduire la notion de degré de confiance dans le prompt servant d’instruction au moment de passer les tests. Il faudrait également introduire des objectifs en la matière dans les évaluations.

« Appelons cela “calibrage comportemental” : plutôt que d’exiger du modèle qu’il fournisse une confiance probabiliste, il doit formuler la réponse la plus utile pour laquelle il est au moins t confiant », théorisent les scientifiques d’OpenAI.

« Le calibrage comportemental peut être vérifié en comparant les taux de précision et d’erreur entre les seuils, et contourne le problème lié au fait qu’il peut exister un nombre exponentiel de façons de formuler des réponses correctes », ajoutent-ils.

Cette approche serait plus adaptée aux questions fermées. Pour les questions ou instructions ouvertes, OpenAI suggère de prendre en compte des « degrés d’hallucinations suivant le nombre d’erreurs générées » dans une sortie.

Certaines erreurs ou hallucinations pourraient persister du fait d’un contexte latent, parfois mal maîtrisé par les LLM. Par exemple, demander à un modèle de langage de traduire du texte à partir de la simple instruction « traduis » suffit dans la plupart des cas pour qu’il « comprenne » que le texte qui suit doit être adapté en français. Mais dans d’autres cas, le terme téléphone peut renvoyer à un moyen de communication filaire ou non. Il faudrait donc introduire des données de ce type lors de l’entraînement.

Il faudrait néanmoins trouver un compromis entre la génération de réponses valides et la production de contenu « diversifié et linguistiquement riche ».

« Si cela fonctionne, cela pourrait constituer une amélioration majeure de la qualité des résultats que nous obtenons et réduire le risque d’obtenir des informations inexactes ou erronées », commente Dharmesh Sha, fondateur et CTO d’Hubspot.

Des effets difficiles à anticiper

Pour Wei Xing, professeur assistant à l’école de mathématiques et de sciences physiques de l’Université de Sheffield, les solutions proposées par OpenAI auraient un double effet. Dans une tribune publiée dans The Conversation, le mathématicien anticipe un impact non négligeable sur l’expérience utilisateur. Les usagers habitués à recevoir une réponse formulée sans nuance pourraient abandonner un système qui affiche des doutes.

Aussi important pour OpenAI, le coût de calcul d’un score de confiance associé à chaque génération pourrait faire exploser la facture. Réduire les hallucinations serait un objectif contraire aux ambitions économiques des acteurs du secteur. L’IA générative étant un outil capitalistique, « ces affirmations plausibles, mais fausses » risquent de perdurer, conclut Wei Xing.

Mais il y a d’autres phénomènes difficiles à appréhender que les chercheurs OpenAI n’occultent pas : l’empoisonnement des données d’entraînement par des tiers. La tentation pour certains fournisseurs de choisir l’alignement de leur LLM sur leur vision du monde.

Les tests de NewsGuard tendent à le prouver. Les 10 outils d’IA générative les plus populaires (Grok, ChatGPT-5, le Smart Assistant de You.com, Inflection, Le Chat, Microsoft Copilot, Meta AI, Claude, Gemini, Perplexity) « répétaient » 35 % de fausses informations en août 2025. En 2024 à la même période, ce taux était de 18 %. Ces assistants ne déclinent plus les demandes sur des sujets de controverses, bien que le taux de « debunking » est en hausse (51 % vs 65 % en 2025).

Certains acteurs se feraient le relais d’éléments de propagande gouvernementale (principalement russe), constate NewsGuard. Des faux narratifs qui infiltreraient les données d’entraînement des LLM et ressortiraient dans les résultats des mécanismes RAG. En effet, la majorité des sites de presse bloque les robots de crawling des éditeurs. Les outils sélectionnent donc des sources moins fiables.

Si Grok de xAI ne fait pas preuve d’un comportement différent des produits de Meta ou de Microsoft, certains, dont l’AFP, ont observé que les tweets d’Elon Musk servaient à ajuster les réponses du chatbot.

Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire