IA générative : 2023, l’année de la prolifération des LLM

Le nombre de grands modèles de langage a été démultiplié en 2023. Les entreprises séduites par la proposition ChatGPT doivent maintenant choisir le ou les bons modèles suivant leur cas d’usage, leur budget et la sensibilité des projets, selon SIA Partners, Hugging Face et LightON.

GPT-4, PaLM-2, Llama 2, Mistral 7B, Falcon-180B, Phi-2, Gemini, Claude 2.1, Cohere, Qwen, Alfred… voilà autant de noms inconnus en 2022 qui font désormais partie du glossaire des data scientists, des développeurs, des DSI et de certains dirigeants.

La division HEKA.IA du cabinet de conseil en management Sia Partners, Hugging Face et AWS ont pu se rendre compte de cette émergence forte de l’IA générative dans les entreprises. Ils ont organisé des rencontres avec leurs clients communs et prospects pour sonder leurs appétences en matière d’IA générative.

Si, au départ, les dirigeants ont pu se montrer sceptiques, la plupart d’entre eux s’entendent désormais sur l’intérêt de l’IA générative, selon David Martineau, directeur général adjoint de SIA Partners.

« Nous avons observé un changement de perception drastique avant et après l’été », affirme-t-il, lors d’un point presse organisé dans le cadre de l’événement AWS re:Invent 2023. « Avant l’été, lors des rendez-vous, les dirigeants trouvaient que la technologie “n’était pas suffisamment mûre et qu’il était temps d’attendre”. Après l’été, plus personne ne le disait ».

L’effet ChatGPT…

Selon Bassem Asseh, directeur des ventes chez Hugging Face, cet engouement a commencé quelques mois plus tôt, en mars 2023.

« Certaines personnes expertes de l’IA nous contactaient régulièrement, mais à partir du mois de mars, nous nous sommes rendu compte que les gens qui nous contactaient n’étaient plus nécessairement des data scientists ou des responsables de division IA », déclare-t-il.

Ce gain d’intérêt, pour Bassem Asseh, est – sans surprise – directement lié à « la force de frappe de ChatGPT » et sa capacité « inégalée » à démocratiser le sujet de l’IA.

« Ces personnes ont sûrement joué avec ChatGPT en décembre, ont constaté que c’était utile, ont lancé des POC et ont demandé à leurs équipes d’IA de s’en saisir », relate-t-il.

LightON, une startup française qui entraîne des modèles et fournit une plateforme d’IA générative, a fait le même constat. Les sociétés ont commencé à manifester leur intérêt au printemps. En revanche, les interlocuteurs de Laurent Daudet, PDG et cofondateur de LigthON, n’avaient pas réellement cerné les cas d’usage de la technologie. « Les gens venaient vers nous en affirmant que cette technologie est impressionnante, mais ils n’arrivaient pas avec une véritable expression de besoins », raconte-t-il.

Laurent Daudet constate également que le discours de ces prospects a changé à partir de l’été pour se matérialiser en intentions à partir de septembre. « Souvent, les responsables ont testé des cas d’usage en interne avec des données anonymisées à l’aide des API d’OpenAI, ont obtenu des résultats encourageants et veulent les reproduire à plus large échelle ».

Deux questionnements sont apparus rapidement, selon Hugging Face et LightON. Ceux-ci demeurent, mais les cabinets, les ESN, les fournisseurs de modèles ou encore les fournisseurs de cloud tentent d’y répondre.

« Oui, l’IA générative “c’est super”, mais les coûts sont tels que certaines entreprises peuvent faire faillite si elles ne savent pas les maîtriser ».
Bassem AssehDirecteur des ventes, Hugging Face

« Premièrement, nos interlocuteurs se sont rapidement interrogés sur la capacité des systèmes d’IA à apprendre de leurs données, ce qui le cas échéant pourrait servir à leurs concurrents. Deuxièmement, ils s’interrogent sur le coût. Oui, l’IA générative “c’est super”, mais les coûts sont tels que certaines entreprises peuvent faire faillite si elles ne savent pas les maîtriser », indique Bassem Asseh.

Cette première interrogation est due à la domination du couple OpenAI-Microsoft sur ce marché naissant. Le géant du cloud et la licorne ont fait de l’interrogation de LLM une commodité technique, mais n’ont pas totalement réussi à rassurer les entreprises quant à l’utilisation de leurs données dans l’entraînement des modèles. Pourtant, Microsoft, OpenAI et les autres assurent qu’ils n’exploitent pas les informations de leurs clients.

… Et l’ombre de l’enfermement propriétaire

Selon le directeur des ventes chez Hugging Face, les entreprises se sont intéressées aux « alternatives aux modèles fermés », tels que GPT-4 d’OpenAI, Claude d’Anthropic ou Gemini de Google, et se dirigent vers les modèles ouverts, « donc vers Hugging Face ». Dans cet écosystème changeant de l’IA, « Hugging Face a pris la place similaire à celle occupée par GitHub dans le monde du développement », constate l’ancien directeur régional chez GitHub.

« Nos clients nous demandent de mettre en production des cas d’usage sur leurs propres serveurs pour éviter les problèmes de confidentialité de données ».
Laurent DaudetCofondateur et PDG, LightON

Cet enjeu de l’alternative aux grands modèles de langage (LLM) fermés est au cœur de l’activité de LigthON. « Nos clients nous demandent de mettre en production des cas d’usage sur leurs propres serveurs pour éviter les problèmes de confidentialité de données. Nos interlocuteurs sont des entreprises ayant des activités sensibles : les banques, les assurances, les acteurs du milieu médical, l’industrie de la défense, etc. », avance Laurent Daudet. « Ils veulent un contrôle sur la sécurité de leurs données et ne sont pas forcément enchantés à l’idée d’aller sur Microsoft Azure ».

Dans un même temps, le nombre de variants de modèles d’IA hébergés sur la plateforme communautaire Hugging Face est passé de 90 000 en octobre 2022 à 441 700 ce 21 décembre, dont plus de 8 900 modèles de question-réponse et plus de 14 000 modèles « text to images ».

Les gros acteurs du marché IT ont compris le message. Lors l’événement re:Invent 2023, les porte-parole d’AWS ont martelé l’idée « qu’un seul modèle ne les dominera pas tous ». Sa plateforme Amazon Bedrock est vouée à accueillir plusieurs LLM du marché, ouverts ou non. Google, avec Vertex AI, et plus timidement Microsoft, avec Azure AI Services (en sus d’Azure OpenAI Services), tiennent peu ou prou le même discours. Les géants du cloud affirment qu’ils peuvent assurer le même niveau de sécurité et de confidentialité que pour leurs autres charges de travail. Dans son jardin associé à Vertex AI, Google Cloud prend en charge plus de 100 modèles de fondation.

Quelques pistes pour choisir son LLM

Désormais, il y a du choix, sûrement trop. Les équipes d’Hugging Face, de SIA Partners et de LightON font face aux mêmes interrogations : quel(s) modèle(s) faut-il choisir ? Comment les déployer à large échelle ? Comment écrire des prompts ? Comment gérer les hallucinations et comment évaluer les résultats ?

Pour la sélection des modèles en eux-mêmes, Hugging Face héberge un classement des LLM ouverts, opéré par la communauté. Celui-ci s’appuie sur des benchmarks constitués de critères à évaluer et de jeux de données correspondants. MMLU (Multi-task Language Understanding), TruthfulQA, WinoGrande, ARC, GSM8K… Tous ces parangonnages sont également exploités par les grands fournisseurs de LLM afin d’en justifier les performances en matière de connaissances (linguistiques, historiques, médicales, etc.), de vérification de la véracité des informations générées, d’évaluation de la résistance des modèles à des attaques par exemple contradictoires ou encore d’estimation de leur capacité à compléter des examens de sciences, de mathématiques et de logiques.

Ce sont là des indicateurs génériques, préviennent Bassem Asseh et David Martineau.

« La note synthétique ne nous intéresse pas. Nous préférons effectuer une analyse multicritère en fonction des tâches à accomplir : résumé de documents, réponses aux questions d’utilisateurs, exécution d’instructions, etc. », indique David Martineau.

« La note synthétique ne nous intéresse pas. Nous préférons effectuer une analyse multicritère en fonction des tâches à accomplir : résumé de documents, réponses aux questions d’utilisateurs, exécution d’instructions, etc. »
David MartineauDirecteur général adjoint, SIA Partners

« Le Leaderboard est un indicateur général, mais l’on se rend rapidement compte que, selon les cas d’usage en entreprise et selon les contraintes, les équipes forment leurs propres classements en s’appuyant sur des critères qui ne sont pas forcément ceux de la communauté des chercheurs », confirme Bassem Asseh.

En conséquence, les interlocuteurs du MagIT signalent qu’ils n’orientent pas forcément leurs clients ou prospects vers les plus gros modèles de langages. « Certaines entreprises viennent vers nous avec l’idée que, pour égaler les performances qu’elles obtiennent avec GPT-4, elles doivent se tourner vers les gros modèles open source », déclare Bassem Asseh. « Nous les dissuadons de se tourner systématiquement vers ces LLM. De manière générale, un modèle qui a été entraîné à l’aide d’ouvrage de philosophie ne sait pas répondre aux clients comme le support d’une entreprise ».

En 2024, un équilibre entre coût et qualité des modèles à trouver, selon Hugging Face

L’enjeu, pour le directeur des ventes de Hugging Face tient dans la spécialisation de plus petits modèles au domaine d’activité de l’entreprise. « Une fois le cas d’usage identifié, il s’agit de trouver les bons modèles, puis de les fine-tuner, c’est de cette manière-là qu’ils seront meilleurs pour les clients », insiste Bassem Asseh.

Oui, Hugging Face et SIA Partners croient en une approche multimodèle, pour des raisons de performance, pour éviter les verrous propriétaires et afin de ne pas engendrer une dette technique. De fait, certaines versions de modèles ne seront plus supportées par les fournisseurs cloud dès 2024. Cette approche peut faire peur aux DSI, car elle implique de gérer plusieurs versions de modèles qu’il faut maintenir et superviser techniquement et financièrement.

« Il y a un équilibre à trouver. D’un côté, il y a la qualité du contenu généré par le modèle NLG – quand je dis qualité, c’est à la fois la véracité des informations qui sont produites, mais aussi la rapidité à laquelle elles sont produites. De l’autre, c’est le coût de l’infrastructure. L’objectif n’est pas toujours de le réduire : parfois, il s’agit d’obtenir de meilleures performances avec le même budget », nuance Bassem Asseh. « Je crois que ce sujet du rapport qualité-coût sera important en 2024 ».

Pour approfondir sur Intelligence Artificielle et Data Science

Close