OpenRAG : Meritis veut faciliter le test des architectes RAG
Considérant que le ticket d’entrée pour tester les différentes architectes RAG est trop élevé, la société de conseils assemble plusieurs briques open source afin de simplifier le choix du bon pipeline et des bons outils par les entreprises.
Meritis a récemment lancé OpenRAG, un comparateur open source afin d’évaluer les performances des architectures RAG (Retrieval Augmented Generation). Oui, la société de conseils distingue les systèmes RAG « naïfs » des RAG avancés et des GraphRAG, comme elle discerne différents cas d’usage de la technique en entreprise.
Meritis estime qu’il faut identifier la méthode la plus utile, en analyser les coûts techniques, humains, l’implémenter en s’assurant de maintenir les performances. Et cela n’a rien d’évident, selon Benoît Joly, ingénieur R&D chez Meritis.
« Un système RAG, ce n’est pas “plug and play” », affirme-t-il. « Il n’y a pas de solution miracle à son cas d’usage non plus. Il y a des choses qui peuvent fonctionner, il y a des paramétrages qui peuvent aider à améliorer la mise en place de solutions, etc. Mais ce n’est pas quelque chose de magique, comme a pu être perçu ChatGPT », ajoute-t-il.
« Il y a, selon moi, deux freins à l’adoption de solution IA en entreprise. Le premier, c’est le ticket d’entrée, coûteux. […] Le deuxième frein, c’est le manque de preuves concrètes ».
Benoît JolyIngénieur R&D, Meritis
Du fait des nombreux composants et de l’expertise qu’il réclame, le déploiement d’un mécanisme RAG serait un frein aux tests de l’approche.
« Il y a, selon moi, deux freins à l’adoption de solution IA en entreprise », déclare Benoît Joly. « Le premier, c’est le ticket d’entrée, coûteux. […] Le deuxième frein, c’est le manque de preuves concrètes ».
D’où la naissance d’OpenRAG, une boîte à outils et une application pour évaluer les performances de la recherche augmentée par génération. « Nous pouvons faire ce travail de présélection d’un certain nombre de RAG qui nous paraissent pertinents et les rendre finalement accessibles », complète Théodore Boullier, directeur de l’innovation chez Meritis. « Les clients veulent non seulement tester les performances, en évaluer les coûts, mais aussi l’impact environnemental ».
Non pas une, mais des architectures RAG
Le framework permet donc de déployer une vingtaine de pipelines pour 11 types de RAG.
« Un mécanisme RAG naïf constitue le fait de connecter une base documentaire à un agent conversationnel », explique Benoît Joly. « L’on découpe les documents en chunks (de petits paragraphes), l’on établit des représentations vectorielles de ces chunks (les fameux embedding) », rappelle-t-il. « Quand l’utilisateur pose une question, l’on crée également un embedding de cette question afin d’identifier les paragraphes les plus proches sémantiquement dans un espace vectoriel ».
Les paragraphes sélectionnés sont fournis au grand modèle de langage qui propulse l’agent conversationnel pour répondre à la requête.
« Cette approche fonctionne bien pour des questions simples et précises », indique l’ingénieur R&D. « En revanche, elle montre ses limites quand la question est complexe ou abstraite ».
Très rapidement, les éditeurs et les chercheurs ont recommandé d’adjoindre une fonction de reranking. Il s’agit de déployer un algorithme pouvant trier dans un plus grand nombre de chunks ceux les plus utiles. « Le reranking est une méthode de RAG avancée », considère Benoît Joly. « Il y a aussi la reformulation de questions qui consiste à rendre la question plus spécifique, en demandant à un LLM d’étendre la requête », ajoute-t-il.
La génération en boucle – le fait d’utiliser un LLM as a judge si des informations manquent dans la réponse d’un chatbot couplé à un RAG – ; le Contextual Retrieval qui mêle annotation des paragraphes avant leur vectorisation et recherche hybride (BM25 et modèle d’embedding) ; l’approche GraphRAG, combinant représentations vectorielles et graphes de connaissances ; sont quelques-unes des autres techniques jaugées par Meritis.
« OpenRAG permet de mettre à l’épreuve ces techniques sur des cas d’usage réels. »
Benoît JolyIngénieur R&D, Meritis
« Il y a beaucoup de types de RAG », résume Benoît Joly. « Ces méthodes ont été évaluées au niveau académique. Problème : les benchmarks qui en résultent sont biaisés. Les jeux de données ont été soigneusement préparés pour que la méthode présentée dans l’article qui l’accompagne apparaisse meilleure que les autres », signale-t-il. « OpenRAG permet de mettre à l’épreuve ces techniques sur des cas d’usage réels », indique l’ingénieur R&D. Après l’installation du framework et de l’application, il s’agit de charger sa base de connaissances, d’interagir avec l’interface pour sélectionner les pipelines puis d’utiliser le mécanisme LLM as a judge fourni par Meritis, afin d’estimer la pertinence des réponses délivrées.
Outre les résultats pour chaque technique, les entreprises peuvent évaluer le nombre de tokens consommés, les temps de réponse et obtenir une estimation de l’impact carbone. Ces indicateurs sont affichés à travers un tableau de bord créé avec Streamlit.
Un framework modulaire censé être robuste et accessible
L’outil servirait en premier lieu à arbitrer des choix technologiques, à valider une architecture RAG, à tester différentes approches ou encore cadrer un projet. « Par exemple, cela permet de se rendre compte qu’un GraphRAG coûte cher et qu’il est spécifique à quelques cas d’usage. Parfois, un système RAG naïf suffit amplement », illustre l’ingénieur R&D chez Meritis. « Ou alors les architectes vont se rendre qu’un petit modèle de reranking améliore les résultats et qu’il permet de réduire drastiquement la taille du LLM chargé de générer la réponse en bout de course ».
OpenRAG inclut différents outils pour propulser les pipelines disponibles depuis un dépôt GitHub. Pour le cœur du moteur, la base de données, le cabinet de conseils a choisi ElasticSearch. Il existe une pléthore de bases de données spécialisées, mais celles envisagées un temps – ChromaDB et Milvus – se sont révélées instables avec Docker. Du côté des LLM, Meritis s’appuie principalement sur Gemma 2-9B et Mistral Small, ainsi que sur leur modèle d’embeddings, qui peuvent être installés sur un serveur ou un ordinateur à l’aide de vLLM et Ollama, deux frameworks de déploiement. « C’était un critère d’accessibilité, mais l’on peut très bien appeler des LLM plus grands comme ceux d’Anthropic ou d’OpenAI », assure Benoît Joly.
Chaque composant d’un système RAG peut être personnalisé. Pour l’instant, OpenRAG permet principalement de modifier la stratégie de chunking et de modifier le couple LLM-modèle d’embedding.
« Les différences entre la manière de découper les paragraphes sont énormes », justifie-t-il. « Certains outils ne font qu’un découpage mécanique, tandis que d’autres prennent en compte la sémantique afin d’assimiler la fin d’une phrase ou d’un segment. C’est un paramètre qu’il faut corréler à la fenêtre de contexte utilisé : les très grands modèles de langage s’en sortent donc mieux que les plus petits qui ont besoin de ces optimisations ».
D’autres optimisations sont mises de côté dans OpenRAG. Et pour de bonnes raisons.
« Entraîner (fine-tuner) un modèle d’embedding sur ses propres données, apporte des gains de performance indéniables », déclare l’ingénieur R&D et docteur en mathématiques. « En revanche, comment bien le faire de manière automatisée ? La plupart des articles scientifiques sur le sujet ne contiennent pas les détails importants, soit parce qu’ils sont sciemment omis, soit parce que l’article doit être court pour être accepté ».
Du même coup, si le Web regorge de ressources pour tester le fine-tuning de modèles d’embedding et de LLM, les entreprises abandonnent par manque de moyens et d’expertise.
Le difficile passage à l’échelle des architectures RAG
« Nous observons des cas d’usage en production sur des sujets assez simples malgré tout », constate pour sa part Théodore Boullier. « Les agents IA type FAQ, les agents IA d’onboarding, des RAG sur de la documentation spécialisée pour des techniciens accélèrent la prise d’information. Ces projets ont prouvé l’intérêt de coupler un chabot avec une base documentaire », poursuit-il. « Il y en a aussi beaucoup qui se sont rendu compte que le passage à l’échelle intime de retravailler la qualité des données et donc de revoir les processus métiers. C’est le nerf de la guerre ».
« Nous sentons qu’il y a encore des limites. »
Théodore BoullierDirecteur de l’innovation, Meritis
Quant aux systèmes agentiques et multiagents, ils sont encore en test au sein des clients de Meritis. « Nous sentons qu’il y a encore des limites », affirme Théodore Boullier. Ceux-là cherchent d’abord à industrialiser et à mettre à l’échelle les projets RAG.
« Les entreprises s’interrogent sur la pertinence de remplacer leurs solutions d’automatisation existantes, comme la RPA. Mais les technologies associées aux LLM (A2A, MCP, etc.) sont davantage réservées aux experts. D’autant que les entreprises réclament une précision proche des 100 % ».
Selon le responsable, beaucoup de passionnés dans les grandes entreprises s’approprient les technologies. « Là aussi, nous allons approfondir ces sujets pour aider les clients à surmonter les obstacles », conclut-il.
Pour approfondir sur IA appliquée, GenAI, IA infusée