Gemma 3 : Google lance des modèles frugaux dédiés aux développeurs
Les modèles Gemma 3 sont multilingues, multimodaux, traitent plus de données tout en ne réclamant qu’un seul GPU pour s’exécuter. Ce faisant, les équipes de Google DeepMind ciblent les développeurs.
Google DeepMind a dévoilé ce 12 mars la troisième génération de modèle Gemma. Pour rappel, quand l’appellation Gemini correspond aux LLM propriétaires de Google, les modèles Gemma sont « open weight » (une licence Apache 2.0 modifiée).
S’ils n’ont pas la réputation des produits de Meta, les modèles des deux précédentes collections Gemma ont été téléchargés plus de 100 millions de fois. Les internautes auraient affiné (fine-tuné) plus de 60 000 variantes.
Tous les modèles sont disponibles dans une déclinaison préentraînée et instruite. Les modèles Gemma 3 de 4, 12 et 27 milliards de paramètres disposent d’une fenêtre de contexte de 128 000 tokens, quand Gemma 3-1B prend en charge jusqu’à 32 000 tokens. Le modèle garde-fou Shield Gemma 2-4B peut traiter jusqu’à 8 000 tokens en une seule passe.
Pour cela, Google DeepMind a ajusté la fenêtre d’attention mixte (globale + glissante) et le mécanisme RoPE de son architecture Transformer (decoder only). L’objectif : diminuer autant que faire se peut la consommation de cache clé-valeur (et donc de VRAM) à l’inférence.
Hormis Gemma 3-1B, tous peuvent traiter plus de 140 langues différentes. Cela serait rendu possible par un ajustement du mix de données à l’entraînement, en utilisant le même tokenizer (SentencePiece). La taille de vocabulaire est cependant importante avec 262 000 entrées.
« L’augmentation du nombre de tokens est due à la combinaison d’images et de textes utilisée lors du préentraînement. »
Équipe des chercheursGoogle Deepmind
Le traitement des images dépend d’un encodeur visuel de 417 millions de paramètres, basé sur SigLiP. C’est la même technologie (implémentée différemment) qui propulse le VLM PaliGemma. Là encore, l’équipe a fait en sorte de s’appuyer sur une résolution d’image et des vecteurs de taille fixe pour amoindrir la consommation de VRAM à l’exécution.
« Gemma 3 a été entraînée sur 2 000 milliards de tokens pour 1B, 4 000 milliards de tokens pour 4B, 12 000 milliards pour 12B et 14 000 milliards de tokens pour 27B, sur des TPUs de Google en utilisant le framework JAX », précisent les chercheurs.
C’est un peu plus que Gemma 2-27B qui n’apprenait plus après 13 000 milliards de tokens, sans toutefois dépasser le plafond de 15 000 milliards de tokens que Google DeepMind pense infranchissable à cette échelle. « L’augmentation du nombre de tokens est due à la combinaison d’images et de textes utilisée lors du préentraînement », indiquent les chercheurs.
Répondre aux demandes des développeurs
La collection Gemma 2 avait été l’occasion pour l’équipe de recherche dirigée depuis la France de prouver l’intérêt de la distillation de connaissances. Cette approche consiste à utiliser un grand modèle de langage pour générer des contenus servant à entraîner un plus petit (l’inverse est plus rare, mais possible, selon OpenAI).
Ici, DeepMind dit avoir exploité une combinaison de techniques de distillation de connaissances, d’apprentissage par renforcement, et de fusion de modèles.
« Cette approche permet d’améliorer les performances en mathématiques, en programmation et en suivi d’instructions », déclarent les ingénieurs de Google. C’était, de fait, l’objectif évoqué par Armand Joulin, principal scientist chez Google DeepMind à l’automne. Gemma 2 avait principalement convaincu les développeurs qui réclamaient des LLM plus performants. Dont acte : Gemma 3 gère mieux les sorties structurées de type JSON, ainsi que les appels de fonction.
Lors de la phase de préentraînement, les chercheurs ont également utilisé la distillation de connaissances, ainsi que des techniques d’apprentissage par renforcement avec feed-back humain, feed-back machine (avec un autre LLM) et « d’execution feed-back ». Cette dernière méthode permet d’apprendre aux modèles à s’améliorer en programmation en exécutant le code généré.
Résultat, Gemma 3-27B instruct se place entre DeepSeek V3 et DeepSeek-R1 sur le test Elo Score du benchmark LMSYS, avec 658 milliards de paramètres en moins, une architecture dense et sans « raisonnement ». Il dépasse également 03-mini et Llama 3.1 405B.
Sur des bancs d’essai plus généralistes (MMLU-Pro, MMMU, GPQA Diamond), les résultats du plus grand des cinq modèles sont proches de ceux de Gemini 1.5 Flash.
« Nous n’effectuons pas de comparaison directe avec des modèles externes qui font souvent état de leurs propres paramètres d’évaluation, étant donné que l’exécution de ces modèles dans notre contexte ne garantit pas une comparaison équitable », expliquent les chercheurs. « Nous encourageons les lecteurs à suivre les classements statiques de tiers pour une comparaison plus équitable entre les modèles ».
À l’heure d’écrire ces lignes, les modèles Gemma 3 ne sont pas référencés dans le classement Open LLM disponible depuis HuggingFace.
Des modèles frugaux à l’inférence (pas à l’entraînement)
L’entraînement des modèles Gemma 3 n’est pas à la portée de tous. Pour les modèles de 27 milliards de paramètres, les chercheurs et les ingénieurs ont utilisé 6 144 TPUv5p. L’ensemble de la collection représente une empreinte carbone estimée de 1 497,13 tonnes équivalent CO2, contre 1 247,61 TCO2 pour les autres modèles Gemma.
« […] Les développeurs peuvent bâtir des applications IA responsables à l’échelle et les déployer auprès de tous les utilisateurs ».
Gus MartinResponsable produit Gemma, Google
Malgré tout, l’objectif de Google DeepMind est de faciliter l’exécution des modèles Gemma 3 sur de petites machines, en local.
« Gemma 3 est conçu pour s’exécuter rapidement sur votre station de travail, ordinateur et smartphone », affirme Gus Martins, responsable produit Gemma chez Google. « Cela veut dire que les développeurs peuvent bâtir des applications IA responsables à l’échelle et les déployer auprès de tous les utilisateurs ».
Gemma 3, GPU : 1
Encodé en BF16, Gemma 3-27B n’a besoin que de 46 Go de VRAM pour se lancer. En clair, un seul GPU Nvidia H100 (80 à 94 Go de VRAM) suffit pour l’exécuter, lui soumettre des prompts et des outils. C’est d’ailleurs ce GPU qu’a utilisé Google DeepMind pour prouver que son modèle pouvait battre DeepSeek-V3. Selon les chercheurs, les modèles chinois DeepSeek V3 et R1 ont eu besoin de 32 GPU H100 pour passer le benchmark.
La compression 4 bits fait tomber ce prérequis à 21 Go de VRAM : une RTX A6000 ou une L40S (48 Go de VRAM) peut faire l’affaire.
Gemma 3-1B peut tourner sur un smartphone puissant quand Gemma 3-4B paraît à l’aise avec une carte disposant de 12 Go de VRAM (RTX 3060 12 Go, 4070, 5070, etc.). Gemma 3-12B semble conçu pour s’exécuter sur les Nvidia A10G, RTX 4090 (24 Go de VRAM) et RTX 5090 (32 Go de VRAM). Google a également rendu compatibles ses modèles avec la librairie ROCm d’AMD, mais celle-ci n’est pas officiellement prise en charge sur l’ensemble des GPU AMD grand public, contrairement au framework CUDA de Nvidia.
« Plus le nombre de tokens requis pour traiter votre requête est élevé, plus la mémoire requise est importante, en plus de la mémoire requise pour charger le modèle », rappelle Google Cloud.
Les modèles Gemma 3 sont disponibles depuis Google Vertex AI, le catalogue Nvidia NIM, Hugging Face et Ollama.
Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM