vchalup - stock.adobe.com

Gemma 3 : Google lance des modèles frugaux dédiés aux développeurs

Les modèles Gemma 3 sont multilingues, multimodaux, traitent plus de données tout en ne réclamant qu’un seul GPU pour s’exécuter. Ce faisant, les équipes de Google DeepMind ciblent les développeurs.

par

Gaétan Raoul, LeMagIT

Publié le: 12 mars 2025

Google DeepMind a dévoilé ce 12 mars la troisième génération de modèle Gemma. Pour rappel, quand l’appellation Gemini correspond aux LLM propriétaires de Google, les modèles Gemma sont « open weight » (une licence Apache 2.0 modifiée).

S’ils n’ont pas la réputation des produits de Meta, les modèles des deux précédentes collections Gemma ont été téléchargés plus de 100 millions de fois. Les internautes auraient affiné (fine-tuné) plus de 60 000 variantes.

Des modèles de langage-vision optimisés

Contrairement à leurs aînés, quatre des cinq modèles Gemma 3 entrent dans la sous-catégorie langage-vision de l’IA multimodale. Seul le plus petit modèle de la collection Gemma 3-1B est strictement un LLM.

Tous les modèles sont disponibles dans une déclinaison préentraînée et instruite. Les modèles Gemma 3 de 4, 12 et 27 milliards de paramètres disposent d’une fenêtre de contexte de 128 000 tokens, quand Gemma 3-1B prend en charge jusqu’à 32 000 tokens. Le modèle garde-fou Shield Gemma 2-4B peut traiter jusqu’à 8 000 tokens en une seule passe.

Pour cela, Google DeepMind a ajusté la fenêtre d’attention mixte (globale + glissante) et le mécanisme RoPE de son architecture Transformer (decoder only). L’objectif : diminuer autant que faire se peut la consommation de cache clé-valeur (et donc de VRAM) à l’inférence.

Hormis Gemma 3-1B, tous peuvent traiter plus de 140 langues différentes. Cela serait rendu possible par un ajustement du mix de données à l’entraînement, en utilisant le même tokenizer (SentencePiece). La taille de vocabulaire est cependant importante avec 262 000 entrées.

« L’augmentation du nombre de tokens est due à la combinaison d’images et de textes utilisée lors du préentraînement. »

Équipe des chercheursGoogle Deepmind

Le traitement des images dépend d’un encodeur visuel de 417 millions de paramètres, basé sur SigLiP. C’est la même technologie (implémentée différemment) qui propulse le VLM PaliGemma. Là encore, l’équipe a fait en sorte de s’appuyer sur une résolution d’image et des vecteurs de taille fixe pour amoindrir la consommation de VRAM à l’exécution.

« Gemma 3 a été entraînée sur 2 000 milliards de tokens pour 1B, 4 000 milliards de tokens pour 4B, 12 000 milliards pour 12B et 14 000 milliards de tokens pour 27B, sur des TPUs de Google en utilisant le framework JAX », précisent les chercheurs.

C’est un peu plus que Gemma 2-27B qui n’apprenait plus après 13 000 milliards de tokens, sans toutefois dépasser le plafond de 15 000 milliards de tokens que Google DeepMind pense infranchissable à cette échelle. « L’augmentation du nombre de tokens est due à la combinaison d’images et de textes utilisée lors du préentraînement », indiquent les chercheurs.

Répondre aux demandes des développeurs

La collection Gemma 2 avait été l’occasion pour l’équipe de recherche dirigée depuis la France de prouver l’intérêt de la distillation de connaissances. Cette approche consiste à utiliser un grand modèle de langage pour générer des contenus servant à entraîner un plus petit (l’inverse est plus rare, mais possible, selon OpenAI).

Ici, DeepMind dit avoir exploité une combinaison de techniques de distillation de connaissances, d’apprentissage par renforcement, et de fusion de modèles.

« Cette approche permet d’améliorer les performances en mathématiques, en programmation et en suivi d’instructions », déclarent les ingénieurs de Google. C’était, de fait, l’objectif évoqué par Armand Joulin, principal scientist chez Google DeepMind à l’automne. Gemma 2 avait principalement convaincu les développeurs qui réclamaient des LLM plus performants. Dont acte : Gemma 3 gère mieux les sorties structurées de type JSON, ainsi que les appels de fonction.

Lors de la phase de préentraînement, les chercheurs ont également utilisé la distillation de connaissances, ainsi que des techniques d’apprentissage par renforcement avec feed-back humain, feed-back machine (avec un autre LLM) et « d’execution feed-back ». Cette dernière méthode permet d’apprendre aux modèles à s’améliorer en programmation en exécutant le code généré.

Résultat, Gemma 3-27B instruct se place entre DeepSeek V3 et DeepSeek-R1 sur le test Elo Score du benchmark LMSYS, avec 658 milliards de paramètres en moins, une architecture dense et sans « raisonnement ». Il dépasse également 03-mini et Llama 3.1 405B.

Sur des bancs d’essai plus généralistes (MMLU-Pro, MMMU, GPQA Diamond), les résultats du plus grand des cinq modèles sont proches de ceux de Gemini 1.5 Flash.

« Nous n’effectuons pas de comparaison directe avec des modèles externes qui font souvent état de leurs propres paramètres d’évaluation, étant donné que l’exécution de ces modèles dans notre contexte ne garantit pas une comparaison équitable », expliquent les chercheurs. « Nous encourageons les lecteurs à suivre les classements statiques de tiers pour une comparaison plus équitable entre les modèles ».

À l’heure d’écrire ces lignes, les modèles Gemma 3 ne sont pas référencés dans le classement Open LLM disponible depuis HuggingFace.

Des modèles frugaux à l’inférence (pas à l’entraînement)

L’entraînement des modèles Gemma 3 n’est pas à la portée de tous. Pour les modèles de 27 milliards de paramètres, les chercheurs et les ingénieurs ont utilisé 6 144 TPUv5p. L’ensemble de la collection représente une empreinte carbone estimée de 1 497,13 tonnes équivalent CO2, contre 1 247,61 TCO2 pour les autres modèles Gemma.

« […] Les développeurs peuvent bâtir des applications IA responsables à l’échelle et les déployer auprès de tous les utilisateurs ».

Gus MartinResponsable produit Gemma, Google

Malgré tout, l’objectif de Google DeepMind est de faciliter l’exécution des modèles Gemma 3 sur de petites machines, en local.

« Gemma 3 est conçu pour s’exécuter rapidement sur votre station de travail, ordinateur et smartphone », affirme Gus Martins, responsable produit Gemma chez Google. « Cela veut dire que les développeurs peuvent bâtir des applications IA responsables à l’échelle et les déployer auprès de tous les utilisateurs ».

Gemma 3, GPU : 1

Encodé en BF16, Gemma 3-27B n’a besoin que de 46 Go de VRAM pour se lancer. En clair, un seul GPU Nvidia H100 (80 à 94 Go de VRAM) suffit pour l’exécuter, lui soumettre des prompts et des outils. C’est d’ailleurs ce GPU qu’a utilisé Google DeepMind pour prouver que son modèle pouvait battre DeepSeek-V3. Selon les chercheurs, les modèles chinois DeepSeek V3 et R1 ont eu besoin de 32 GPU H100 pour passer le benchmark.

La compression 4 bits fait tomber ce prérequis à 21 Go de VRAM : une RTX A6000 ou une L40S (48 Go de VRAM) peut faire l’affaire.

Gemma 3-1B peut tourner sur un smartphone puissant quand Gemma 3-4B paraît à l’aise avec une carte disposant de 12 Go de VRAM (RTX 3060 12 Go, 4070, 5070, etc.). Gemma 3-12B semble conçu pour s’exécuter sur les Nvidia A10G, RTX 4090 (24 Go de VRAM) et RTX 5090 (32 Go de VRAM). Google a également rendu compatibles ses modèles avec la librairie ROCm d’AMD, mais celle-ci n’est pas officiellement prise en charge sur l’ensemble des GPU AMD grand public, contrairement au framework CUDA de Nvidia.

Certaines approches permettent de charger les paramètres en mémoire vive, de manière plus ou moins efficace selon les machines. Du fait que leurs puces GPU et CPU partagent la RAM disponible, les ordinateurs Apple équipés de SoC M semblent à l’aise avec ce paradigme.

« Plus le nombre de tokens requis pour traiter votre requête est élevé, plus la mémoire requise est importante, en plus de la mémoire requise pour charger le modèle », rappelle Google Cloud.

Les modèles Gemma 3 sont disponibles depuis Google Vertex AI, le catalogue Nvidia NIM, Hugging Face et Ollama.

Gemma 3 : Google lance des modèles frugaux dédiés aux développeurs

Les modèles Gemma 3 sont multilingues, multimodaux, traitent plus de données tout en ne réclamant qu’un seul GPU pour s’exécuter. Ce faisant, les équipes de Google DeepMind ciblent les développeurs.

Des modèles de langage-vision optimisés

Répondre aux demandes des développeurs

Des modèles frugaux à l’inférence (pas à l’entraînement)

Gemma 3, GPU : 1

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM

Gemini CLI : Google veut s’imposer face à Cursor et à Claude Code

LLM : pour revenir dans la course, Alibaba Cloud lance Qwen 3

Llama 4 : Meta s’inspire de ses concurrents chinois

Mistral Small 3.1 reste frugal et devient multimodal