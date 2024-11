Les systèmes d’IA générative produisent parfois des informations fausses ou trompeuses, un phénomène connu sous le nom d’hallucination. Ce problème est de nature à freiner l’usage de cette technologie par les entreprises qui espèrent pouvoir traiter certaines de leurs données et tâche.

De plus, cela peut éroder l’intégrité d’une organisation et entraîner des réparations coûteuses et fastidieuses.

Pour réduire le risque de désinformation générée par l’IA et améliorer la fiabilité du système, les praticiens doivent comprendre, identifier et atténuer les problèmes d’hallucinations potentielles.

Les stratégies pour atténuer les hallucinations de l’IA

L’atténuation des hallucinations peut améliorer la fiabilité et la précision des modèles d’IA générative. Les entreprises peuvent mettre en œuvre un certain nombre de stratégies pour aider à prévenir les hallucinations de l’IA.

La base : régler la température du modèle

C’est souvent un élément méconnu par les néophytes, car généralement inaccessibles à travers les interfaces comme ChatGPT. Les chercheurs en IA qui développent les LLM ont mis en place un mécanisme pour inhiber ou exacerber leur créativité, et donc leur propension à halluciner : la température. Ce paramètre, souvent accessible depuis l’API d’un modèle, est généralement compris entre 0 et 1. Si le curseur est placé proche de zéro (par exemple entre 0,2 et 0,5), le modèle fournira les prédictions les plus déterministes et souvent les plus précises. Or, il se peut que le réglage ne convienne pas aux questions plus ouvertes ou aux tâches de création. Dans ce deuxième cas, il convient de choisir une température plus proche de 1, mais l’exposition aux hallucinations est statistiquement plus importante. Un réglage permet généralement de sélectionner automatiquement cette valeur en fonction de la recherche de l’utilisateur.

La température peut être combinée avec la valeur « top-p », comprise entre 0,1 et 1. Cet outil permet de restreindre la réponse aux mots les plus probables de se retrouver les uns à la suite des autres cumulant un pourcentage déterminé par la valeur « top-p ». Une fois combinés, ces deux mécanismes doivent permettre d’obtenir un équilibre entre précision et créativité.

Prompt Engineering

Il est difficile de maîtriser le prompt écrit par les utilisateurs. Il peut donc être utile de les former aux bonnes pratiques de rédaction de ces messages. S’il s’avère impossible de former les usagers ou que les résultats de l’application sont trop aléatoires, il convient de rédiger le ou les bons system prompts.

Un system prompt est une suite d’instructions qui guide le comportement du modèle en back-office/end.

Par exemple, avant d’appeler l’API d’un modèle, il peut être intéressant de rédiger un message du type :

« Tu es un assistant bienveillant chargé de fournir les réponses les plus précises possibles. Tu réponds uniquement lier aux sujets du marketing » ou « voici la liste des sujets interdits :… ». Bien évidemment, un system prompt correctement constitué est plus volumineux que cet exemple et sûrement plus subtil. Si elle est peu coûteuse, cette approche n’empêche pas les hallucinations.

Génération augmentée par récupération (Retrieval Augmented Generation)

Voilà la méthode la plus populaire pour atténuer les hallucinations. La génération augmentée par récupération (RAG) est une technique puissante de traitement du langage naturel. Elle améliore les performances d’un modèle d’IA générative lorsqu’il est confronté à une requête ou à une tâche en incorporant une composante de recherche.

Une architecture RAG implique l’enrichissement des réponses d’un LLM en lui fournissant un contexte et des informations spécifiques directement liées à la requête. Le modèle d’IA peut alors générer une réponse basée non seulement sur ses connaissances préentraînées et la requête d’entrée, mais aussi sur les informations qu’il a récupérées.

Pour aider un LLM à comprendre le contexte qui lui est fourni, il faut « encoder » le texte. Ce procédé se nomme la vectorisation. Un autre modèle de GenAI ou un transformer NLP a la tâche de convertir les documents fournis en vecteurs ; il s’agit de séries de décimales comprises entre -1 et 1. Elles seront comparées avec la requête de l’utilisateur du LLM. Pour ce faire, ces vecteurs sont stockés dans une base de données, puis indexés. Quand l’application qui cache le LLM est utilisée, une mécanique s’enclenche pour poser la question à un moteur de recherche qui trie les résultats les plus pertinents de l’index, puis envoie les éléments au LLM qui compose sa réponse et renvoie le résultat vers l’interface.

L'architecture RAG permet au LLM de fournir des réponses ancrées dans une base de connaissances.

Étant donné leur conception, les architectures RAG ancrent leurs réponses dans des sources connues. Cet ancrage contextuel permet de récupérer des données préexistantes pertinentes ou en temps réel avant de générer une réponse, ce qui contribue à empêcher le modèle d’halluciner ou de générer de fausses informations.

Les résultats sont généralement plus précis, car les réponses des modèles RAG utilisent des sources crédibles (par exemple, Google Search) ou des sources primaires vérifiées. Les entreprises qui conçoivent des applications d’IA dans des domaines où la précision est primordiale, comme la médecine, le droit ou la science, devraient envisager de faire de la RAG une exigence de leur projet.

De plus, les bases de données sur lesquelles s’appuie l’architecture RAG peuvent être mises à jour indépendamment des modules de recherche, d’embedding ou du LLM lui-même.