Assistants d’IA générative et LLM sont-ils toujours la meilleure option ?
Les assistants d’IA générative et les LLM pullulent. Exemples à l’appui, un expert en data science chez Cagemini Invent explique quand ils sont utiles et quand d’autres solutions sont plus efficaces.
Les éditeurs et les fournisseurs de LLM ont largement mis en avant leurs assistants propulsés à l’IA générative.
Mais faut-il les utiliser de manière systématique ? In fine, est-ce que certaines tâches ne sont pas moins coûteuses et tout aussi efficaces une fois traitées à l’aide de modèles d’IA plus traditionnels ?
Non et oui, répond Florian Arthur, directeur data science, responsable des pratiques NLP et LLM chez Quantmetry, une filiale de Capgemini Invent.
Copilot ou appels API ?
« Déployer un copilote à l’échelle d’une entreprise de 100 000 salariés représente un coût mensuel très élevé, même en tenant compte des réductions liées aux accords et à l’infrastructure cloud », déclare-t-il. « La question est donc : qui en a réellement besoin et pour quels usages ? ».
Florian Arthur prend l’exemple d’une entreprise internationale dans l’industrie de 12 000 employés. Ici, les besoins se concentrent davantage sur l’assistance à la reformulation, la traduction ou l’extraction d’informations, et ce, pour l’ensemble des équipes.
« ChatGPT privé » : une option viable à large échelle
Supposons que 7 000 collaborateurs utilisent cet assistant et que 1 000 d’entre eux l’exploitent quotidiennement. Cela représenterait un volume de 5 000 requêtes par jour. Environ 70 % des requêtes sont liées à de la traduction et à de la reformulation, tandis qu’environ 30 % d’entre elles sont consacrés à l’extraction d’informations dans des documents ou des textes.
« Dans cet exemple-là, les appels API représentent un coût largement inférieur au coût mensuel des copilotes », constate Florian Arthur. De fait, l’ensemble des fournisseurs de LLM, dont OpenAI, AWS ou encore Google ont radicalement fait baisser les prix de ces appels depuis le lancement de ChatGPT en novembre 2022.
Déployer une interface maison et la connecter aux services API s’avèrent donc plus intéressant dans le cas décrit plus haut.
« Chez Capgemini, nous disposons d’accélérateurs sous forme d’interfaces de type chatbot ou assistant, que nous déployons et adaptons en fonction des besoins de nos clients. Je les appelle souvent des “ChatGPT privés” », déclare Florian Arthur. « En essence, ce sont des assistants basés sur différents LLM. Selon les demandes, nous pouvons choisir d’utiliser un modèle plus léger ou, au contraire, un modèle spécialisé, par exemple pour la traduction vers le chinois », poursuit-il. « Si le besoin inclut une analyse documentaire ou un traitement multimodal, nous opterons pour un modèle plus puissant. Cette approche nous permet d’être plus précis et adaptés aux usages spécifiques ».
Sur le papier, les appels API sont très avantageux par rapport à l’achat d’abonnements SaaS. Encore faut-il ne pas oublier de configurer des limites. « Comme les coûts restent relativement bas, les risques de voir la facture explosée avec un usage classique sont faibles », estime Florian Arthur. « En revanche, il faut éviter les usages détournés. Par exemple, nous avons déployé un système d’extraction d’informations dans des documents à l’échelle d’une entreprise internationale. Nous avons rapidement imposé une limite sur le nombre et la taille des documents téléversés ».
Il est également possible d’héberger sur site ou dans le cloud les modèles sur des serveurs dotés de GPU. Cet usage s’avère plus complexe.
Des copilotes pour certaines équipes
Les copilotes ne sont toutefois pas inutiles. Loin de là.
« Des solutions comme Le Chat ou Copilot présentent un réel intérêt lorsqu’on les envisage à travers des cas d’usage spécifiques au sein d’une équipe ».
Florian ArthurDirecteur data science, responsable des pratiques NLP et LLM, Quantmetry, Capgemini Invent
« Des solutions comme Le Chat ou Copilot présentent un réel intérêt lorsqu’on les envisage à travers des cas d’usage spécifiques au sein d’une équipe », note-t-il. « Par exemple, une équipe communication qui produit de nombreuses publications nécessitant des adaptations selon différents “tons de voix” pourrait tirer parti d’un tel outil ».
En le paramétrant en fonction des sujets et des besoins, et en l’intégrant directement dans Teams ou d’autres outils de l’entreprise, cette option faciliterait considérablement le processus de création et d’adaptation des contenus.
Dans d’autres cas d’usage, le choix d’un outil sur étagère dépend du niveau de personnalisation ou de spécification des systèmes de l’entreprise.
« Par exemple, ServiceNow propose des chatbots pour simplifier la gestion des tickets », illustre Florian Arthur. « Selon les besoins, nous choisissons des solutions sur mesure, adaptées à des processus spécifiques, ou pour mener des chantiers particuliers, ou bien nous optons pour des solutions du marché, déjà intégrées aux outils existants ».
IA générative ou IA « traditionnelle » ?
Désormais, les assistants d’IA générative intègrent divers outils, dont ceux consacrés à la reconnaissance de caractères (OCR) et à la numérisation de documents. Certains modèles (vision transformer) dits multimodaux peuvent également le faire. Peut-on les utiliser ? Surtout pas à l’échelle, prévient le directeur data science.
« C’est mon combat quotidien », lance-t-il. « Nos clients sont au courant qu’il est possible de faire de l’OCR avec de l’IA et extraire tous les montants d’une note de frais. Nous aimons mener des missions liées à la GenAI, mais dans ce cas là il faut éviter de l’utiliser », assure-t-il.
« Nos clients sont au courant qu’il est possible de faire de l’OCR avec de l’IA et extraire tous les montants d’une note de frais. Nous aimons mener des missions liées à la GenAI, mais dans ce cas là il faut éviter de l’utiliser ».
Florian ArthurDirecteur data science, responsable des pratiques NLP et LLM, Quantmetry, Capgemini Invent
« Il y a plus simple, tout aussi performant et ce n’est pas l’ambition du groupe de pousser un usage massif de l’IA générative quand il n’y en a pas besoin, surtout quand l’on connaît les consommations énergétiques que cela représente », poursuit-il.
Extraire des données de facture avec des LLM, une fausse bonne idée
Ce ne serait pas du tout adapté au traitement quotidien de plusieurs dizaines de factures.
« Il est assez simple de mener des benchmarks afin de comparer les performances réelles. Je ne connais aucun cas d’usage où, sur des données classiques de facturation, les LLM sont plus performants », tranche-t-il.
Les modèles multimodaux sont meilleurs une fois confrontés à certains formats spécifiques ou extraire des données de tableaux complexes, nuance-t-il.
« L’illisibilité de l’écriture manuscrite en milieu médical n’est malheureusement pas une légende. Les modèles de reconnaissances de textes manuscrits, même les plus performants, ne fonctionnaient pas très bien dans ce contexte », évoque-t-il. « En identifiant les premières et dernières lettres, des modèles comme Pixtral peuvent reconnaître des mots qu’un humain n’arriverait pas à reconnaître à la lecture ».
Il existe un entre-deux, sous la forme des services managés comme Azure AI Document Intelligence (ex-Azure Form Recognizer). Celui-ci combine des capacités d’OCR et plusieurs algorithmes de machine learning pour extraire des données de documents. « Là encore, tout dépend du coût. Lors des derniers tests que j’ai menés, ce service coûtait 9 euros pour 1 000 pages ». Dans certains cas d’usage, c’est trop, signale le responsable. « Dans ces cas-là, il vaut mieux se tourner vers des solutions “customs” et les modèles ouverts, comme LayoutLM ».
Les modèles NLP demeurent plus efficaces pour classer des mails
Puisqu’ils sont utilisés lors de l’entraînement d’autres modèles de langage, les LLM sont également « de très bons discriminateurs », évoquait Alexandre Combessie, cofondateur et CEO de Giskard, auprès du MagIT. Ils peuvent être utilisés dans des scénarios type « LLM as a judge » où ils servent généralement à identifier la pertinence ou la toxicité (par exemple) des réponses d’autres modèles. Dans un scénario multiagent, ils peuvent également « router » des tâches vers des LLM. Tous ces usages ont trait à de la classification. Sur le papier, donc, un modèle d’IA générative peut servir à catégoriser des mails et à les faire parvenir aux bons destinataires.
« Sur un cas d’usage de classification de mails, il vaut mieux privilégier un modèle de NLP personnalisé de type BERT ».
Florian ArthurDirecteur data science, responsable des pratiques NLP et LLM, Quantmetry, Cagemini Invent
Une autre fausse bonne idée, selon Florian Arthur. « Sur un cas d’usage de classification de mails, il vaut mieux privilégier un modèle de NLP personnalisé de type BERT », considère-t-il. « Il y a plusieurs avantages. Le premier d’entre eux, c’est qu’un modèle BERT, même personnalisé, répond en 100 à 200 millisecondes. Ce n’est pas le cas d’un GPT-4o, par exemple, s’il y a des pièces jointes ou des informations connexes », compare-t-il. Un algorithme de NLP est par ailleurs beaucoup moins gourmand en ressources de calcul.
En revanche, les LLM pourraient être utiles pour accélérer l’annotation des mails utilisés lors de l’entraînement du modèle BERT. Il se peut que la classification évolue. Par exemple, un assureur pourrait vouloir segmenter plus précisément les réclamations. Cela demande de ré-annoter des dizaines de milliers de mails. Un travail aisé pour un LLM une fois qu’il a accès en entrée aux bonnes descriptions de classes. Florian Arthur et son équipe n’ont pas encore pu tester ce cas d’usage.
« Build » ou « Buy » ?
De manière plus générale, le responsable des pratiques NLP et LLM chez Capgemini Invent estime que les LLM sont utiles quand le rapport performance-coût est positif. « Il faut également prendre en compte l’enjeu environnemental et énergétique que l’usage de l’IA générative représente », ajoute-t-il. « Ce n’est pas juste plus performant et plus cher, c’est aussi plus énergivore ».
Quant à la décision d’acheter (« buy »), de faire (« build »), de « faire faire » (« outsource ») ou de « faire avec » (« build with »), elle dépend classiquement de l’échelle du projet et du niveau de personnalisation requis. « Quand les volumes de données à traiter sont importants, que les usagers sont nombreux et tiennent des rôles variés, et quand l’on a besoin de personnalisation, il vaut mieux se tourner vers des solutions conçues par des spécialistes ou des options sur mesure », déclare Florian Arthur.
De son côté, Aurélien Fenard, directeur de la transformation numérique et des données RH chez France Travail, encourage les entreprises à créer des « bibliothèques de fails » de l’IA générative. « Un cas d’usage peut être lancé en POC, mais ne pas fonctionner. Il faut documenter les raisons de cet échec. L’idée reviendra sur la table, toujours, et il faut pouvoir rapidement l’écarter » si la genAI n’est pas la solution.
Pour approfondir sur IA appliquée, GenAI, IA infusée