L’émergence des grands modèles de langage émane des investissements de ces mêmes entreprises dans la recherche ouverte et les projets open source.

Or, l’on assiste à un pivot. Puisque ces technologies représentent désormais un intérêt commercial, certains décident de fermer les rideaux sur leurs avancées techniques.

OpenAI, malgré son nom, ne souhaite plus partager ses méthodes de conception et d’entraînement dans le détail. LightOn, une startup française qui pose sa plateforme en alternative à GPT-4 et ChatGPT a pris la même décision qu’OpenAI : ses modèles sont propriétaires.

Il faut également prendre en compte une barrière technico-financière. Pour rappel, GPT-3 a été entraîné sur un superordinateur comptant 10 000 GPU, à 10 000 dollars l’unité. Le modèle LLaMa de Meta a été propulsé par 2 048 GPU. De son côté, BLOOM, un projet porté par HuggingFace, a été formé sur un cluster de 384 GPU du supercalculateur Jean Zay. Un entraînement qui, s’il avait été facturé par le GENCI (la branche HPC du CNRS), aurait coûté entre 2 et 5 millions de dollars.

Pourtant, les responsables de ces projets LLM n’ont de cesse de chercher à réduire les coûts d’entraînement de ces grands modèles de langage.

Outre des librairies d’optimisation, l’architecture même des modèles évolue peu. Tous les LLM s’appuient sur un article scientifique de 2017 marquant l’émergence des transformeurs. L'intérêt de ces modèles d’apprentissage profond autoattentifs tient dans la parallélisation des traitements de données séquentielle, chose impossible avec les réseaux de neurones récurrents.

LLaMa, LaMDA, GPT-3.5 et 4, Chinchilla ou Paradigm sont des modèles NLG entraînés pour suivre des instructions données en langage naturel (Instruction Following model, en VO). C’est ce que rappelle Matei Zaharia, cofondateur et CTO de Databricks et professeur associé en science computationnelle à l’université de Stanford. Bard et ChatGPT sont deux applications propulsées par ce type de modèle.

Cette volumétrie se mesure en nombre de tokens. Un token correspond à une série de trois à quatre caractères, le plus souvent un mot. Pour rappel, le rôle premier des grands modèles de langage est de prédire le mot suivant dans une phrase avec le plus de précision possible.

Depuis 2017, les performances des modèles de langage ont toutefois grandement évolué à force d’expérimentations. Si le nombre de paramètres a été un vecteur de réussite important, comme l’a constaté Google et OpenAI avec BERT, PalM et GPT-2 et 3, la taille des jeux de données est aussi un critère clé pour les porteurs de Chinchilla, LAMDA, LLaMa et de Paradigm.

Tout comme son inspiration, Alpaca, Dolly de Databricks s’avère « surprenammant bon » pour générer du texte, aider à des séances de brainstorming et répondre à des questions ouvertes en anglais. « Il présente toutes les limites des modèles de langage. S’il ne sait pas quelque chose, il peut l’inventer, il n’est pas connecté à une forme de connaissance externe », prévient Matei Zaharia. « Mais il était beaucoup plus efficace et plus simple à concevoir que nous le pensions ».

« Nous avons supervisé GPT J-6B avec des exemples de questions-réponses et de conversations en ligne pendant un peu plus de 40 heures. Cela nous a coûté environ 30 dollars dans le cloud ». Matei Zaharia CTO et cofondateur, Databricks

Il y a toutefois une surprise. En supervisant son entraînement avec un jeu de 52 000 questions – réponses tirées du projet Alpaca de l’Université de Stanford, le modèle Dolly obtient des résultats satisfaisants en très peu de temps. « Nous avons supervisé GPT J-6B avec des exemples de questions-réponses et de conversations en ligne pendant un peu plus de 40 heures. Cela nous a coûté environ 30 dollars dans le cloud », s’amuse le CTO.

Le projet Dolly a été conçu à partir GPT J-6B, un modèle open source concocté par l’institut de recherche EuleutherAI. Inspiré de GPT-2 et 3, le transformeur GPT J-6B a été entraîné sur 402 milliards de tokens (un jeu de données nommé The Pile, pesant 825 Go) en 383 500 étapes sur un pod TPUv3- 256 de Google Cloud.

« Notre objectif est d’aider les entreprises à bâtir leurs propres solutions d’IA et de traitements de données. Il est désormais possible de concevoir des applications avec ces modèles qui semblaient accessibles qu’à un petit nombre de grands groupes », insiste-t-il.

Les chercheurs et les étudiants peuvent donc plus facilement créer leurs logiciels inspirés de ChatGPT, mais est-ce que cela a un intérêt pour les entreprises ? Matei Zaharia le pense.

Si le projet Dolly est open source (GPT J-6B est sous licence Apache 2.0 et le jeu de données d’Alpaca sous Creative Commons NC 4.0), Databricks en a fait un notebook à déployer depuis sa plateforme. De plus, l’entreprise ne confie les poids des modèles qu’à la demande des utilisateurs.

Des technologies à la portée des chercheurs et des entreprises

Le CTO de Databricks explique que concevoir un agent conversationnel ou un classificateur de documents sur les données internes d’une entreprise est plus simple que de bâtir un modèle à l’échelle du Web. « Il y a bien moins de concepts à apprendre. Par exemple, une telle application n’a pas besoin de savoir l’Histoire de l’humanité ou comment se produit une fusion nucléaire si ce n’est pas votre métier », illustre-t-il.

« Les données sont également plus propres : normalement, il n’est pas question de théories du complot, il y a moins de données biaisées ou offensantes. Donc, les entreprises peuvent concevoir des outils efficaces avec leurs informations », poursuit-il.

Ce serait par ailleurs intéressant pour des organisations qui ne peuvent pas se permettre de connecter leurs systèmes au Web.

Toutes les sociétés ne seraient pas prêtes à miser sur quelques acteurs, selon Databricks.

« Pour de nombreuses entreprises, les problèmes et les jeux de données les plus susceptibles de bénéficier de l’IA représentent leur propriété intellectuelle la plus sensible et la plus exclusive, et il peut être intolérable de la confier à un tiers », avancent les porte-parole de Databricks dans un communiqué. « Nous pensons que la plupart des utilisateurs de ML ont tout intérêt, à long terme, à posséder directement leurs modèles ».

Il ne faut pas se leurrer. L’initiative n’est pas philanthropique. Selon Matei Zaharia, les projets NLP et NLG se multiplient chez les clients de Databricks.

« Les entreprises et les organisations s’intéressent beaucoup à l’utilisation du traitement du langage naturel dans le domaine de l’analytique », note-t-il. « Nous avons déjà un millier de clients qui entraînent des modèles de langage sur des données, généralement pour des tâches plus spécifiques comme la classification ou le suivi d’instructions. Nous constatons qu’il y a beaucoup de projets, dont un bon nombre en production, et nous pensons qu’il y en aura d’autres ».

C’est pour des cas d’usage spécifiques que Genesys, l’éditeur spécialiste des solutions de centre de contacts, s’appuie sur les services d’HuggingFace. Il est en train de superviser l’entraînement de BLOOM sur des données publiques, et privées (environ 20 % du data set). « Nous nous concentrons sur la production de résumés de conversation entre un agent et les clients. Cela arrivera très vite en production », signale Olivier Jouve, EVP & Chief Product Officer chez Genesys. « Nous préparons d’autres cas d’usage, mais cela demande davantage d’affinage pour obtenir des résultats avec le moins d’erreurs possible ».

« ChatGPT est beaucoup plus cher pour l’instant. Avec notre modèle, nous obtenons un résultat équivalent avec un coût bien moindre pour nos clients ». Olivier JouveEVP & Chief Product Officer, Genesys

Comme à son habitude, Genesys laissera ses clients utiliser le modèle d’IA générative de son choix. « ChatGPT est beaucoup plus cher pour l’instant. Avec notre modèle, nous obtenons un résultat équivalent avec un coût bien moindre pour nos clients », avance Olivier Jouve.

Toutefois, le CTO de Databricks pense qu’il y a encore beaucoup de progrès à faire pour que ces modèles d’IA générative « émergents » soient réellement utiles dans les entreprises. Outre la production de contenus dangereux, ils sont susceptibles d’inventer des faits, de créer des « hallucinations ». Le monde de la recherche s’attaque déjà à ce problème.

« Tout cela est encore très frais […]. Dans mon groupe de recherche à l’Université de Stanford, nous travaillons sur le moyen de faire en sorte que ces modèles produisent uniquement des faits ou des informations vérifiées », renseigne Matei Zaharia.