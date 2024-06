Ce 27 juin, Google Cloud a annoncé la disponibilité générale de son LLM Gemini 1.5 Pro. Ce modèle doté d’une très longue fenêtre de contexte peut maintenant ingérer jusqu’à deux millions de tokens. Jusqu’alors, cette fonctionnalité était accessible en bêta privée. Gemini 1.5 Flash, une variante offrant un meilleur rapport coût-latence au prix de performances un peu plus faibles, « entre en production ».

En clair, Google ouvre l’accès de son LLM à quelques équipes de red teaming avant une disponibilité générale depuis l’API Gemini et Google AI Studio, prévue à la mi-juillet. Qui dit une longue fenêtre de contexte, dit des coûts importants. Pour pallier ce problème, Google avait déjà évoqué le déploiement d’un service de mise en cache du contexte. C’est désormais chose faite. Par ailleurs, le géant du cloud met à disposition une fonction nommée code construction. Celle-ci permet de générer du code dans un environnement sandbox afin de vérifier sa qualité ou de multiplier les variantes générées.

Gemma 2 est (enfin) disponible

La seule véritable annonce notable, c’est la fin de l’entraînement de la collection de grands modèles de langage « ouverte » Gemma 2. Elle sera déclinée en trois variantes de 2,6 ; 9 et 27 milliards de paramètres. Pour l’instant, Gemma 2-9B et 27B peuvent être testés depuis Google AI Studio.

Le véritable intérêt de Gemma 2 tient dans les objectifs d’entraînement formulés par la Team Gemma et Google DeepMind. Dernièrement, les fournisseurs de LLM ont tenté d’améliorer les performances des modèles de petite taille en agrandissant le corpus de préentraînement, et, en conséquence, en allongeant la durée du temps d’entraînement. « Les derniers petits modèles nécessitent jusqu’à 15T [15 000 milliards de tokens] pour améliorer l’état de l’art de moins de 1-2 % », notent les chercheurs de Google en prenant l’exemple de Llama 3.

Ces « petits » LLM sont toutefois sous-entraînés, ajoute-t-il. « Nous explorons des alternatives pour améliorer les performances des petits modèles sans augmenter uniquement la longueur de l’apprentissage ».

Pour ce faire, les chercheurs de Google ont modifié l’objectif d’entraînement de Gemma 2-9B et 2B. La tâche d’entraînement habituelle d’un LLM est de prédire le « token », c’est-à-dire le bout de mot suivant. Ici, ils ont itéré sur la technique de distillation de connaissances, très souvent utilisée pour entraîner ces plus petits LLM.

« Concrètement, nous utilisons un grand modèle de langage comme un professeur pour entraîner de petits modèles, à savoir des modèles de 9 milliards et 2,6 milliards de paramètres, sur une quantité de tokens qui dépasse de plus de 50 fois la quantité optimale de calcul prédite par la théorie (Hoffmann et al., 2022) », expliquent les chercheurs.

Ils ont réuni 13 000 milliards de tokens, des données « principalement en anglais », pour entraîner Gemma 2-27B. La variante 9B a été entraînée avec 8 000 milliards de tokens, et 2 000 milliards de tokens pour Gemma 2- 2,6B. La méthode de distillation mise en place vise à réduire au maximum la distance entre les prédictions du modèle « enseignant » (Gemma 2-27B) et ceux des modèles « élèves ».

Les données « non désirées » et potentiellement sensibles ont été filtrées. Le post-entraînement peut se résumer à l’exploitation de techniques de fine-tuning supervisées, d’apprentissage par renforcement avec feed-back humain, de filtrage et de fusion d’hyperparamètres (model merging) à partir de données réelles et synthétiques en anglais.

Gemma 2 dispose par ailleurs d’une architecture légèrement différente de son aîné. Outre la fenêtre de contexte de 8192 tokens, l’utilisation du mécanisme de rotation des embeddings ROPE et de la fonction d’activation GeGlu, Gemma 2 reprend des concepts déployés au sein des modèles Gemini.

Il se distingue par le fait qu’il combine un mécanisme d’attention global d’une longueur de 8192 tokens et une fenêtre d’attention glissante locale de 4096 tokens. Par ailleurs, comme pour Gemini 1.5 Pro, les chercheurs ont limité les logits, c’est-à-dire les scores bruts de classification avant l’opération de transfert softmax dans chaque couche d’attention. Cela permet de stabiliser l’entraînement et le fine-tuning. Malheureusement, cela rend les LLM incompatibles avec la librairie FlashAttention qui permet – généralement – d’accélérer l’inférence sur les machines les moins puissantes.

Gemma 2-27B et 9B sont dotés d’un mécanisme d’attention groupé (Grouped Query Attention ou GQA) et tous les modèles utilisent RMSnorm, une méthode de normalisation des inputs entre les couches.