Tous les éditeurs et les fournisseurs de LLM semblent concentrer sur l’avènement des agents IA et de l’IA agentique. Ces termes entraînent une forme de confusion. D’autant que les acteurs ne s’entendent pas encore sur la manière de les développer et les déployer.

C’est beaucoup moins vrai pour les architectures RAG (Retrieval Augmented Generation). Dès 2023, elles ont suscité un consensus dans l’industrie IT.

À gros trait, le processus d’un système RAG est simple à comprendre. Celui-ci démarre par l’envoi d’un prompt – une question ou une demande – par l’utilisateur. Ce prompt en langage naturel et la requête associée sont comparés au contenu de la base de connaissances. Les résultats les plus proches de la demande sont classés par ordre de pertinence, puis le tout est envoyé à un LLM afin qu’il produise la réponse renvoyée à l’utilisateur.

Une fois les documents sélectionnés, il s’agit de convertir les données brutes (pages HTML, documents PDF, images, fichiers Docs, etc.) dans un format exploitable, c’est-à-dire du texte et des métadonnées associées (exprimés dans un fichier JSON, par exemple). Ces métadonnées peuvent à la fois documenter la structure du document, mais aussi ses auteurs, sa provenance, sa date de création, etc. Ces données formatées sont ensuite transformées en tokens, puis en vecteurs.

Un LLM n’est pas « de facto » un outil de préparation de données. Il convient de retirer les doublons, les versions intermédiaires des documents et d’appliquer des stratégies de sélection des articles ou items à jour. Cette présélection évite de surcharger le système d’informations potentiellement inutiles et d’éviter les problèmes de performances.

La première étape consiste à rassembler les documents que l’on souhaite interroger. S’il est tentant d’ingérer tous les documents à disposition, c’est une mauvaise stratégie. D’autant qu’il faut décider de mettre à jour le système en batch ou en continu. « Les échecs viennent de la qualité en entrée. Certains clients me disent : “j’ai deux millions de documents, tu as trois semaines, fais-moi un RAG. Évidemment, ça ne fonctionne pas” », lance Bruno Maillot, directeur Practice AI for Business chez Sopra Steria Next. « L’on oublie souvent cette notion de raffinage qui était pourtant bien comprise dans le cadre du machine learning . L’IA générative, ça ne fait pas des Chocapic ».

Une deuxième approche consiste en un découpage sémantique, c’est-à-dire en s’appuyant sur un découpage « naturelle » : par phrase, par section (défini par un Header HTML par exemple), sujet ou par paragraphe. Plus complexe à implémenter, cette méthode est plus précise. Elle dépend souvent d’une approche « récursive », puisqu’il est question d’utiliser des séparateurs logiques (espace, virgule, point, titraille, etc.).

La taille d’un chunk est souvent exprimée en nombre de caractères ou de tokens. Un plus grand nombre de chunks améliore la précision des résultats, mais la multiplication de vecteurs augmente la quantité de ressources et le temps nécessaire pour les traiter.

D’où l’intérêt de mettre en place une stratégie de « chunking ». Cette étape consiste à subdiviser un document en court extrait. Une étape cruciale, selon Mistral AI. « Cela facilite l’identification et la récupération des informations les plus pertinentes lors du processus de recherche ».

La vectorisation et les modèles d’embeddings

Un modèle d’embeddings est chargé de convertir les chunks ou les documents en vecteurs. Ces vecteurs sont stockés dans une base de données.

Là encore, il existe plusieurs sortes de modèles d’embeddings, principalement des modèles denses et des modèles épars (sparse). Les premiers produisent généralement des vecteurs de taille fixe, exprimés en x nombres de dimensions. Les seconds génèrent des vecteurs dont la taille dépend de la longueur du texte en entrée. Une troisième voie mêle les deux approches pour vectoriser de courts extraits ou des commentaires (Splade, ColBERT, IBM sparse-embedding-30M).

Le choix du nombre de dimensions déterminera la précision et la vitesse des résultats. Un vecteur avec beaucoup de dimensions capture davantage de contexte et de nuances, mais peut réclamer plus de ressources pour le créer et le retrouver. Un vecteur doté d’un plus petit nombre de dimensions sera moins riche, mais plus rapide à rechercher.

Le choix du modèle d’embeddings dépend aussi de la base de données dans laquelle les vecteurs seront enregistrés, du grand modèle de langage avec lequel il sera associé et de la tâche à accomplir. Les benchmarks comme le classement MTEB sont d’une aide précieuse. Il est parfois possible d’utiliser un modèle d’embeddings qui ne provient pas de la même collection du LLM, mais il est nécessaire d’utiliser le même modèle d’embeddings pour vectoriser la base documentaire et les questions des usagers.

Notons qu’il est parfois utile de fine-tuner le modèle d’embeddings quand celui-ci ne contient pas suffisamment de connaissances sur le langage spécifique à un domaine spécifique (au hasard, la médecine oncologique ou l’ingénierie des systèmes).