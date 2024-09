Pour rappel, l’Einstein Trust Layer rassemble l’ensemble des mécanismes mis en place par Salesforce pour réduire les biais et les hallucinations des grands modèles de langage embarqués par le groupe dans ses agents et les outils de conception d’agents.

Cette « couche » avait fortement été mise en avant en 2023. Cette année, Salesforce n’a pas effectué d’annonces particulières à son sujet. Pour autant, l’Einstein Trust Layer a été mise à jour et d’autres changements sont prévus sur la feuille de route.

Il faut se tourner vers Rob Katz, vice-président produit IA et technologie responsables pour en apprendre davantage. « En réalité, par rapport à ce que nous avons présenté l’année dernière, cette couche a beaucoup évolué », assure-t-il.

Le responsable évoque en premier lieu la mise en place de garde-fous. Ceux-là visent principalement à cantonner les résultats d’un LLM à un sujet spécifique, prédéfini. Pour cela, Salesforce combine le filtrage de contenus via une API passerelle, des techniques de prompt engineering et des mécanismes internes à son système de RAG (Retrieval Augmented Generation).

Une politique de red teaming pour éprouver Agentforce

Salesforce a déployé une pratique de « red teaming », et plus particulièrement de conduite d’attaques par exemple contradictoires.

L’équipe de Salesforce IA a d’abord constitué un lot de données synthétiques pour vérifier Agentforce.

« Nous avons effectué cette opération avant le lancement d’Agentforce avec plus de 8 000 variantes différentes d’entrées hors limites afin de nous assurer de sa robustesse. Notre système n’a donné aucune réponse inappropriée », affirme Rob Katz.

Dans une deuxième phase, ils ont fait appel des attaquants « humains », plus particulièrement des employés de Salesforce, puis des contractuels.

« Nous avons sollicité la participation d’employés de différents pays et différentes entités qui étaient vraiment enthousiastes à l’idée de voir s’ils pouvaient briser le système », confirme Rob Katz. « Nous avons également essayé d’obtenir un point de vue extérieur, des campagnes de bug bounty et d’autres programmes similaires consacrés à l’IA et à l’agentique ».

En conséquence, Salesforce dit avoir revu les garde-fous et différentes fonctionnalités d’endiguement des hallucinations. Ceux-là auraient permis de réduire les résultats nocifs issus des attaques par exemples contradictoires de 90 %.

Quant aux injections de promptes et autres attaques, elles seront recensées dans la piste d’audit et le tableau de bord spécifique à Agentforce.

L’un des enjeux majeurs de la vente et du marketing selon Rob Katz est celui des biais. Derrière une adresse postale peuvent se cacher des biais démographiques, plus particulièrement des biais raciaux et financiers.

« Nous essayons de faire en sorte qu’un être humain doté de discernement et comprenant les politiques de son entreprise prenne la décision finale concernant les groupes qui reçoivent tel ou tel message », avance le responsable. « Le modèle ne doit pas non plus introduire des biais non désirés, inattendus ou non perçus dans les résultats générés ».