Pour rappel, les activités de recherche consacrées à ses modèles « open weight » – les collections estampillées de l’appellation Gemma – sont dirigées à Paris.

Armand Joulin est revenu plus particulièrement sur le cas de Gemma 2 pour clarifier certains points clés de l’entraînement des LLM éponymes.

D’emblée, il pose l’esprit communautaire qui anime ce projet. « La principale raison pour laquelle nous avons ouvert ces modèles, c’est que la plupart des développeurs utilisent les technologies open source », souligne-t-il. « Nous ne voulons pas que seuls quelques acteurs dominent et guident l’évolution de l’intelligence artificielle ».

Pour rappel, Gemma 2 rassemble trois modèles de base et ses variantes instruites dotés respectivement de 27 milliards, 9 milliards et 2,6 milliards de paramètres

Ces nombres ne sont pas le fruit du hasard. « Ces tailles ont été choisies parce que nous visions différentes plateformes dont nous savions que les développeurs d’IA aimeraient disposer : des appareils mobiles, des ordinateurs portables, et des machines dotées d’un seul GPU haut de gamme », note-t-il.

« Avec Gemma, nous utilisons un modèle bien plus grand, entraîné sur une immense quantité de texte, ce qui lui a permis d’acquérir une profonde compréhension du monde », indique Armand Joulin. Ce dernier ferait la taille d’un modèle équivalent à Gemini ou GPT-4. « Nous intégrons ce modèle pour qu’il génère des probabilités sur certaines informations. Étant donné que ce modèle est performant et produit du texte de qualité, il représente probablement une meilleure approximation de cette distribution que celle obtenue par du simple texte ».

« Ensuite, on compare avec la vérité, c’est-à-dire le mot réellement présent dans le texte ». Si ce mot est « brun », il convient d’ajuster la probabilité pour donner plus de poids à « brun ». « Comme la somme des probabilités doit faire 1, on pousse en même temps les autres probabilités vers 0. Mais cela ne semble pas totalement juste », poursuit-il.

Dans cette phase, il s’agit de demander à partir d’un texte à trou de prédire le mot suivant. Par exemple, on prend la phrase « le chien est » et on demande au modèle de deviner le mot suivant, par exemple « petit, brun, blanc, arbre, etc. Parmi tous ces mots, le modèle doit effectuer une prédiction, c’est-à-dire déterminer quel est le mot le plus probable suivant la première partie de la phrase », indique-t-il.

Quand les modèles n’apprennent plus

« Avec ce type de méthode, le comportement pendant l’entraînement change : le modèle va chercher à ajuster les probabilités de manière plus modérée. Cela permet un apprentissage plus rapide et plus efficace », avance Armand Joulin. « C’est particulièrement important pour les petits modèles, car ils mettent généralement beaucoup de temps à converger, et après un certain nombre de tokens, ils cessent souvent d’apprendre ».

Malgré cette approche, cette dernière affirmation reste vraie. Ainsi, selon le chercheur, DeepMind n’a pas sélectionné un nombre arbitraire de tokens à l’entraînement, mais a considéré que Gemma 2-27B n’apprendrait plus après 13 000 milliards de tokens, que Gemma 2-9B s’arrêterait d’apprendre après 8 000 milliards de tokens qu’il suffirait de 2 000 milliards de tokens pour saturer les poids qui animent Gemma 2- 2,6B. « Après ces seuils, augmenter le nombre de tokens n’apporte pratiquement aucun gain », juge-t-il. Il serait possible d’augmenter ces volumes avec quelques optimisations, mais la limite de 15 000 milliards de tokens semble un maximum pour le plus grand modèle.

La distillation des connaissances a également été utilisée lors du post-entraînement, afin « d’aligner les modèles avec les préférences humaines ».

« Je n’entrerai pas dans les détails, mais nous avons utilisé un “professeur” qui est aussi un plus grand modèle pour guider les réponses d’un plus petit modèle appelé “élève” », évoque le chercheur. « La seule différence ici, c’est qu’au lieu de modifier un texte existant – comme on le fait lors d’un post-entraînement en vérifiant comment un modèle répond aux questions – nous laissons le modèle “élève” répondre aux questions, puis le modèle “enseignant” corrige [annote N.D.L.R] ses réponses ».