Tijana - Fotolia

RAG : les bonnes pratiques à respecter pour maximiser ses chances de succès

Société Générale et Crédit Agricole ont déployé du RAG pour leurs usages en recherche documentaire. Les performances de ces systèmes sont soumises à la prise en compte de plusieurs impératifs. Des défis persistent en outre.

Recherche document, analyse des verbatim client, génération de réponses aux emails. Différentes applications de l’intelligence artificielle générative se déploient au sein des secteurs de la banque et de l’assurance. Pour ces cas d’usage, ces entreprises s’appuient généralement sur des RAG (Retrieval Augmented Generation).

C’est en tout cas l’approche suivie par le groupe Crédit Agricole et par Société Générale avec respectivement « CA Gen Search » et « LACI » (et « Charly » pour le métier assurance de SG).

Du RAG pour les métiers avec des données complexes et volumiques

Décrite comme une plateforme industrielle et multi-LLM par Aldrick Zappellini, directeur data et CDO du Crédit Agricole, « CA Gen Search » cible plusieurs populations : clients et conseillers pour des tâches de support, ainsi que les fonctions de contrôle des établissements « qui manient des informations à la fois complexes et très volumiques. »

« LACI » est quant à lui un outil de recherche associé à une base de connaissances interne (Atlas) composée de 10 000 documents. La requête de l’utilisateur est exprimée sous forme de prompt en langage naturel. L’assistant a pour fonction d’identifier les documents et paragraphes « les plus pertinents pour répondre à la question ».

« Il utilise ensuite ces paragraphes pour générer une réponse contextualisée et pour spécifier à l’utilisateur le document et le paragraphe qui ont généré la réponse », détaille Martina Machet, head of Data Intelligence & Products de SG French Retail Bank (SGRF).

LACI se destine à 20 000 utilisateurs de la banque de détail. En amont du développement de l’assistant, la direction Data a estimé que les collaborateurs consacrent quotidiennement 30 minutes à la recherche d’information. Elle estime donc pouvoir générer des gains de productivité significatifs.

À noter que les développements en banque ont été adaptés au contexte de l’assurance afin de concevoir un bot avec un vocabulaire spécifique. « Nous pouvons nous appuyer sur les mêmes composants et la même méthodologie, et fine-tuner les modèles », partage Kent Aquereburu, AI Data Lab manager pour Société Générale Assurances.

L’activité assurance de SG dispose ainsi d’un outil en phase pilote. Son nom : « Charly ».

« Il s’adresse aux collaborateurs internes. Il s’occupe des questions relatives à la fiscalité et à l’assurance juridique ».

Les finalités de ces solutions d’IA générative sont simples et clairement identifiées. Mais la mise en œuvre, elle, s’avère complexe (comme en témoignent les experts des deux banques, qui sont intervenus lors d’AI for Finance 2024).

Une méthode projet pour l’IA industrielle

Pour concevoir « CA Gen Search », le Data Lab a appliqué la même méthode projet et collaborative que pour ses autres IA (une méthode certifiée LNE). « Nous mettons un point d’honneur à construire des IA nativement industrielles », insiste Samuel Laloum, AI & Data project manager.

La démarche consiste, au début du cadrage, à recenser les différents prérequis métiers et les contraintes techniques. Le but : prévenir un échec lors de l’industrialisation et éviter d’accumuler de la dette technique.

L’IA générative s’accompagne de risques spécifiques, parmi lesquels les hallucinations et l’injection de prompt, qui doivent être traitées en amont. En binôme avec le métier, un niveau de performance attendu est aussi défini.

Chez SG aussi, la méthode de développement importe. LACI est ainsi enrichi de manière incrémentale et son déploiement est progressif. Une telle démarche s’avérerait encore plus critique pour l’IA générative et les RAG.

« Pour l’instant, les réactions des utilisateurs sont assez bonnes… mais un peu mitigées, disons, en ce qui concerne la recherche de documents. Nous constatons qu’il est parfois difficile d’identifier des documents », reconnaît Martina Machet. « Mais nous travaillons sur des évolutions qui peuvent améliorer considérablement le niveau de performance, afin d’avoir un bon niveau de satisfaction avant de passer à l’échelle avec 1 000 utilisateurs », poursuit-elle, optimiste.

La qualité des données, nerf du RAG et de la GenAI

Pour gagner en performance, la qualité des données est critique. Les spécialistes de SG et du Crédit Agricole sont d’accord sur ce point. L’évaluation de ce patrimoine « data » constitue d’ailleurs une des principales étapes de la méthode.

« Nous nous assurons que les données sur lesquelles nous allons travailler sont de qualité. C’est un des prérequis fondamentaux de la construction » d’une application de GenAI, insiste Samuel Laloum.

Chez Société Générale, la qualité de la base Atlas est, là aussi, un enjeu majeur et un levier d’amélioration de LACI. « La qualité des données reste essentielle, et peut-être même plus pour l’IA générative qu’avec l’IA classique », considère Martina Machet. « Il est donc important d’avoir une bonne gouvernance, par exemple, pour votre base de données de documents, de les mettre à jour, d’essayer d’éviter d’avoir des versions multiples de documents, des doublons, des informations contradictoires, etc. », liste-t-elle.

Il peut en outre s’avérer nécessaire de « repenser la structure de la base de données documentaire » et même d’adapter la rédaction de la documentation au fonctionnement de la GenAI. « Les personnes qui rédigent la documentation commencent à comprendre qu’il faut probablement la rédiger différemment si nous voulons que la GenAI soit performante », constate l’experte de SGRF.

Pour ses cas d’usage, Crédit Agricole ambitionne de s’appuyer sur des modèles préentraînés. Dans cette perspective, selon Aldrick Zappellini, l’axe de travail principal en matière de qualité consiste à sécuriser une base de données annotées.

Cette base interviendra dans l’évaluation des performances des modèles et au moment de trancher la question de la mise en production. Le CDO estime que l’IA générative fait ressortir « de gros besoins de rationalisation et d’urbanisation de nos choix en matière de gestion des données », en particulier documentaires.

Ce chantier exige par ailleurs des actions de pédagogie auprès des métiers pour leur faire comprendre qu’un projet GenAI ne se cantonne pas aux coûts de développement du volet IA. « Il faut investir sur le socle de gestion documentaire ».

L’évaluation des réponses générées

Les cas d’usage du génératif nécessitent une approche spécifique de l’évaluation des réponses fournies par la machine.

C’est ce qu’a appliqué le Crédit Agricole au premier cas d’usage « intégré, évalué, déployé » de CA Gen Search. Ce cas concerne la recherche d’informations dans un nouveau corpus normatif du groupe composé de documents de l’AI Act (ou RIA, règlement sur l’intelligence artificielle). Le corpus est destiné à être ouvert à l’ensemble des collaborateurs dans le cadre de la mise en conformité avec la réglementation européenne.

Afin d’évaluer la plateforme sur ce cas d’usage, la direction Data a demandé au métier une base annotée manuellement par des experts sous forme d’une centaine de questions-réponses – SGRF dispose de son propre dataset pour tester les réponses. La base a aussi été utilisée pour réaliser un benchmark de différents LLM via « les métriques traditionnelles de l’IA », métiers et techniques.

Le but est de « maîtriser ces LLM et d’identifier les plus adaptés ou les plus pertinents pour différentes familles de cas d’usage », explique Aymen Shabou, CTO DataLab Groupe & AI Factory Group.

Les performances sont évaluées automatiquement, grâce aux données annotées, et de manière qualitative, par le métier, sur la base de critères définis avec lui (qualité linguistique de la réponse générée, pertinence via un feed-back, présence d’hallucination, etc.). « La capacité des LLM à rester fidèles au corpus initial » est aussi mesurée.

Conclusion : « les performances sont correctes et intéressantes pour un démarrage, en sachant que comme tout modèle d’IA il va falloir fine-tuner et l’améliorer en continu par les équipes end-user pour atteindre des performances plus élevées », commente le CTO du Crédit Agricole.

L’évaluation s’effectue en outre grâce à la collecte des feed-back directement depuis l’application. « C’est important », souligne Kent Aquereburu. « L’utilisateur peut donner son avis juste en dessous de la réponse pour dire si elle est bonne ou non, exacte ou incomplète, etc. »

Les défis de la sécurité

La sécurité, que ce soit du fait d’hallucinations ou d’attaques, constitue un des grands défis de l’industrialisation de l’IA générative dans un secteur comme la banque. La problématique a été abordée en R&D au niveau groupe du Crédit Agricole.

« Nous avons mené des travaux pour maîtriser ces risques, les détecter, les atténuer afin de proposer une démarche groupe », déclare Aymen Shabou. Dans ce cadre, le DataLab a benchmarké plusieurs solutions, propriétaires et open source.

Il s’agissait d’évaluer la maturité des outils du marché. Le dispositif de maîtrise des risques de la GenAI est complété par une approche de « red teaming continu » basée sur trois piliers : détection des vulnérabilités des modèles par cas d’usage, l’atténuation (avec plusieurs stratégies possibles), et la consolidation des tests de détection dans une optique d’amélioration continue.

Le passage en production et la scalabilité dans le cloud

L’ambition des entreprises sur la GenAI est, bien sûr, de passer en production. Toutefois, cette étape ne manque pas d’obstacles. Les fournisseurs de cloud vantent régulièrement les atouts du cloud dans la scalabilité. Mais la réalité divergerait lorsqu’il s’agit d’IA générative.

« On le sait tous aujourd’hui, certains clouders fixent des limites et des quotas à l’usage des LLM. Nous avons clairement pris conscience de ces limites grâce aux tests de charges menés sur la plateforme », prévient Aymen Shabou.

Des leviers de scalabilité doivent par conséquent être identifiés pour le passage en production, que ce soit dans le cloud ou on-prem. Le DataLab a d’ailleurs recensé des pistes d’optimisation.

Pour le modèle « Pay-as-you-go », les fournisseurs proposent différentes stratégies avec, par exemple, du multicompte, du multirégion ou encore du multimodèle. Le mode réservation d’instances offre d’autres alternatives.

À chaque scénario correspondent des avantages et des inconvénients, signale le CTO. Le multi-LLM auprès de différents clouders pourra ainsi permettre de réduire sa dépendance. Le pay-as-you-go, lorsque le nombre d’utilisateurs est important, peut cependant se traduire par des coûts conséquents.

La réservation (d’instances, de débits et de ressources) « est avantageuse dès qu’on passe sur des volumes très importants et pour maîtriser les coûts associés ».

Mais les gains de flexibilité permis par ce modèle sont assortis de « contreparties », à commencer par la complexité de l’estimation des capacités de calcul à contractualiser. Les instances réservées nécessitent en outre des compétences en interne pour les manager.

En conclusion, Aldrick Zappellini attire l’attention sur le difficile calcul de la valeur des usages de l’IA générative. « On sait très bien calculer le coût. Pour la valeur, c’est plus compliqué. Elle peut dépendre de facteurs multiples, découler de gains de productivité qu’on qualifie de non récupérables ».

L’équation peut dès lors conduire à opter pour des solutions « moins risquées » que l’IA générative. Pour le chief data officer, il est donc essentiel « de la mettre là où elle est réellement utile » et de privilégier une « approche centrée sur le besoin plutôt que sur la solution ».

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM