Klemsy - Fotolia

LLM : Salesforce présente un benchmark consacré à son CRM

Pour aider ses clients à choisir le bon modèle d’IA générative, l’éditeur a présenté un banc d’essai, afin d’évaluer les LLM au regard des tâches spécifiques du CRM. Pour l’heure, il s’intéresse à la production de résumé et la génération de contenus dans le contexte de Sales et Service Cloud.

L’évaluation des grands modèles de langage (Large Language Models ou LLM) dans le contexte professionnel demeure un défi. Si des benchmarks existent, ils s’appuient généralement sur des critères génériques, établis par des chercheurs. Ceux-là jugent les capacités « académiques » des LLM.

Plusieurs éditeurs et fournisseurs ont mis en place des mécanismes pour comparer plus facilement les modèles et leurs performances. Cependant, ces parangonnages s’appuient encore sur les tests génériques. C’est le cas, par exemple, de l’outil Azure AI Studio.

En réalité, la plupart des éditeurs préconisent de tester les modèles avec leurs outils d’évaluation en se concentrant sur des tâches spécifiques.

Or cela demande d’engager des dépenses, sans réellement savoir si le LLM choisi est le bon.

Conscient de ce phénomène, Salesforce (ayant déjà pu se « confronter » à de premiers déploiements et garant des processus sur sa plateforme) vient de présenter un benchmark LLM consacré aux processus spécifiques à son CRM. Celui-ci a été mis sur pied par son équipe de recherche en IA, Salesforce AI Research.

« Nos clients nous ont demandé un moyen spécifique d’évaluer et de choisir leurs modèles d’IA générative, alors qu’ils observent une prolifération des LLM », justifie Clara Shih, CEO de Salesforce AI, dans un communiqué.

Une méthodologie « maison », plus proche des usages réels

Plus précisément, Salesforce AI Research s’intéresse aux performances des LLM concernant des tâches confiées à ces modèles depuis Sales et Service Cloud.

Le laboratoire de R&D se concentre sur deux tâches liées à Sales Cloud, à savoir la génération de courriels et la production de résumé d’appel. Quatre processus dédiés à Service Cloud sont également scrutés : la production de résumés d’appel, la création de « savoir » à partir des informations d’un cas, la création de recommandations pour répondre à un client et la génération d’indicateurs pendant une conversation en ligne avec un client (Chat Live Insights). Ceux-ci correspondent à deux types de tâches pour un LLM : la génération de texte et la production de résumés.

Les chercheurs de Salesforce évaluent l’exactitude, les coûts, la vitesse, ainsi que le niveau de confiance et la sûreté des réponses.

L’exactitude rassemble quatre métriques que sont la « factualité », la complétude, la concision et le suivi d’instruction. Chacune de ces métriques est notée sur quatre. La note minimale, 1, correspond à un résultat « très pauvre, non utilisable » et comportant des « problèmes critiques évidents ». La note 4 est un résultat « très bon », « une personne disposant de suffisamment de temps [pour réunir les informations] ne ferait pas beaucoup mieux ».

Chaque LLM a été exécuté environ 615 fois pour obtenir un score moyen. Aucun des modèles testés n’obtient un score de 4.

Concernant les coûts, les chercheurs observent le coût moyen des tâches pour 1 000 requêtes, en prenant en compte le fait que certains modèles sont disponibles par API et que d’autres, par exemple certains LLM « open weight », doivent être hébergés par les clients. Salesforce évalue trois degrés de coût : bas, moyen et élevé. Premier constat, les chercheurs semblent considérer qu’il est moins coûteux d’appeler des API que d’héberger soi-même les modèles.

 La vitesse des résultats correspond à la latence moyenne par requête exprimée en seconde. Deux scénarios sont évalués, l’un où le prompt en entrée fait 500 tokens et le résultat 250 tokens, et l’autre où le prompt en entrée est long de 3 000 tokens et le résultat atteint 250 tokens. « Cela reflète des cas d’usage commun de génération de textes et de production de résumé », considèrent les chercheurs.

Enfin, la confiance rassemble quatre métriques. Salesforce observe :

  • « La sûreté – à quelle fréquence le LLM évite-t-il de répondre à des questions dangereuses ?
  • La confidentialité – à quelle fréquence le LLM évite-t-il de révéler des informations privées ?
  • La véracité – quel est le degré de précision du LLM en matière de connaissances générales ?
  • L’Équité CRM – quel est le degré d’impartialité des résultats basés sur les perturbations du compte et du sexe sur les ensembles de données CRM ? ».

Les scores obtenus par les modèles pour chacune de ces métriques sont exprimés en pourcentage. Toutefois, Salesforce n’explique pas entièrement sa méthodologie.

Les chercheurs ont effectué des tests manuellement, mais ont également utilisé Llama 3-70B comme un évaluateur (LLM as a Judge) afin de proposer une méthode d’annotation automatisée.

Pour l’heure, Salesforce AI Research a évalué 15 modèles de huit fournisseurs (OpenAI, Meta, Anthropic, Mistral, Google, Cohere, Salesforce et AI21 Labs) : GPT-4o, GPT-4 Turbo, GPT-3.5 Turbo, Llama 3 70B, Llama 3 8B Claude 3 Opus, Claude 3 Haiku, Mistral 7B, Mixtral 7X8B, Gemini Pro 1, Gemini Pro 1.5, Cohere Command Text, Cohere Command R+, XGen 2 et AI21 Jamba-Instruct.

Une première étape, selon Salesforce

Selon Clara Shih, ce banc d’essai disponible depuis une page Tableau Public et la plateforme HuggingFace est amené à évoluer.

« Ce référentiel n’est pas seulement une mesure, c’est un cadre complet et évolutif qui permet aux entreprises de prendre des décisions éclairées, en équilibrant la précision, le coût, la rapidité et la confiance », assure-t-elle.

« La plateforme est conçue de telle sorte que vous puissiez tester et configurer des modèles différents, ceux de Salesforce et de tiers. »
Kheira BoulhilaV-P senior, Solutions EMEA et France, Salesforce

Le tableau de bord de Salesforce permet déjà d’identifier quelques LLM offrant un bon compromis entre performances, coût et sûreté. Cela semble être le cas de Claude 3 Haiku d’Anthropic, de Gemini Pro 1 de Google et de GPT 3.5-Turbo d’OpenAI. Salesforce ne prétend pas toutefois obliger ses clients à choisir un modèle (ou une méthode de déploiement) plutôt qu’un autre.

Pour des résultats plus précis et spécifiques aux cas d’usage des clients, Kheira Boulhila, vice-présidente senior Solutions EMEA et France chez Salesforce, recommande d’effectuer des tests sur la plateforme d’IA Einstein 1.

Les équipes de Salesforce en France auraient mené plus d’une centaine de démonstrations auprès des clients du géant du CRM.

Les fonctions d’IA générative seraient en cours de test par plus de cent clients français et feraient l’objet de POC d’une durée allant de « six à douze semaines ». Plus d’une dizaine de clients français les exploiteraient déjà en production, selon la SVP.

« La plateforme est conçue de telle sorte que vous puissiez tester et configurer des modèles différents, ceux de Salesforce et de tiers. Et demain, nous allons pouvoir recommander certains LLM plutôt que d’autres suivant le cas d’usage », anticipe-t-elle, auprès de la presse française.

Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire

Close