Definition

Qu'est-ce que Gemma ? Le modèle d'IA open source de Google expliqué

Gemma est une collection de modèles d'IA générative (GenAI) légers et open source. Gemma a été créé par le laboratoire de recherche Google DeepMind, qui a également développé Gemini, les chatbots d'IA générative de Google. Gemma est disponible en plusieurs tailles et peut être utilisé avec les outils de développement les plus courants et les services Google Cloud.

Le nom Gemma vient du mot latin signifiant "pierre précieuse". Google a lancé Gemma le 21 février 2024, avec deux modèles : Gemma 2B et Gemma 7B.

Gemma a connu plusieurs versions et itérations. Google a lancé Gemma pour la première fois le 21 février 2024, avec deux modèles : Gemma 2B et Gemma 7B. La deuxième version a suivi quelques mois plus tard, le 27 juin 2024, avec Gemma 2 en 9B et 27B, puis le 31 juillet 2024 avec une variante 2B. Le Gemma 3 a fait ses débuts le 10 mars 2025, avec les variantes 1B, 4B, 12B et 27B.

Les versions initiales de Gemma n'étaient pas aussi grandes et puissantes que les modèles d'IA les plus répandus, tels que le GPT-4 d'OpenAI et les chatbots Gemini Ultra et Pro de Google. Cependant, les modèles légers et compacts de Gemma peuvent fonctionner sur des ordinateurs portables ou de bureau, car ils ont des vitesses d'inférence plus rapides et des exigences de calcul plus faibles. Avec le lancement de Gemma 3, Google a affirmé qu'il pouvait surpasser des modèles open source plus importants, notamment DeepSeek-V3 et Llama3 405B.

Gemma fonctionne également sur les appareils mobiles et les nuages publics. Nvidia a collaboré avec Google pour optimiser Gemma afin qu'il fonctionne sur ses unités de traitement graphique (GPU). Grâce à cette large prise en charge des plateformes et du matériel, Gemma peut fonctionner sur des GPU, des unités centrales de traitement ou des unités de traitement tensoriel (TPU) de Google Cloud.

Bien que les modèles soient libres, Google autorise l'utilisation commerciale et la distribution de Gemma.

En quoi Gemma est-elle différente des autres modèles d'IA ?

Gemma présente plusieurs différences par rapport aux chatbots IA les plus répandus, notamment Gemini de Google. Gemma se distingue par son ouverture et sa légèreté. Gemini et la famille de modèles GPT d'OpenAI utilisés dans ChatGPT sont des modèles fermés, et ni l'un ni l'autre n'est suffisamment léger pour fonctionner sur des ordinateurs portables. Comme ChatGPT et Gemini sont fermés, les développeurs ne peuvent pas personnaliser leur code comme ils peuvent le faire avec le modèle open source Gemma.

Gemma n'est pas le premier modèle d'IA ouvert de Google, mais il est plus avancé dans sa formation et ses performances que les anciens modèles Bert et T5. OpenAI, le développeur de ChatGPT, n'a pas encore publié de modèles open source.

Google dispose également de modèles Gemma pré-entraînés et adaptés aux instructions pour fonctionner sur des ordinateurs portables et des stations de travail. À l'instar de Gemma, les modèles LLM de la famille Llama de Meta sont des modèles d'IA à source ouverte qui peuvent potentiellement être exécutés localement sur des ordinateurs portables. Les modèles Llama sont largement accessibles aux développeurs par l'intermédiaire de Hugging Face et d'autres plateformes.

Les modèles d'IA open source sont devenus de plus en plus populaires au fil du temps. Parmi les autres modèles d'IA open source figurent DeepSeek, Tulu d'Ai2, IBM Granite, Mistral AI, Qwen, Falcon 180B, Bloom, Databricks Dolly et Cerebras-GPT.

À quoi sert Gemma ?

Les développeurs peuvent utiliser Gemma pour créer leurs propres applications d'IA, telles que des chatbots, des outils de résumé de texte et d'autres applications de génération augmentées par la récupération (RAG). Grâce à sa légèreté, Gemma convient parfaitement aux applications GenAI en temps réel qui nécessitent une faible latence, comme le streaming de texte.

À partir de Gemma 3, les modèles ont également des capacités multimodales, permettant aux utilisateurs d'analyser des images et des vidéos.

Gemma peut également servir de base à la construction d'une IA agentique. Depuis la version 3 de Gemma, les modèles prennent en charge l'appel de fonctions, ce qui est essentiel pour les flux de travail de l'IA agentique.

Gemma est disponible via des outils de développement populaires, y compris les carnets Colab et Kaggle et des cadres tels que Hugging Face Transformers, JAX, Keras 3.0 et PyTorch.

Les modèles Gemma peuvent être déployés sur la plateforme d'apprentissage automatique Vertex AI de Google Cloud et sur Google Kubernetes Engine (GKE). Google Vertex AI permet aux créateurs d'applications d'optimiser Gemma pour des cas d'utilisation spécifiques, tels que la génération de textes, le résumé et les questions-réponses. L'exécution de Gemma sur GKE permet aux développeurs de construire leurs propres modèles affinés dans des conteneurs portables.

Gemma est optimisé pour fonctionner sur les matériels d'IA les plus courants, notamment les GPU Nvidia et les TPU Google Cloud. Nvidia a collaboré avec Google pour prendre en charge Gemma via la bibliothèque open source Nvidia TensorRT-LLM pour optimiser l'inférence LLM et les GPU Nvidia fonctionnant dans le centre de données, dans le cloud et localement sur les stations de travail et les PC.

Gemma a été pré-entraîné sur de grands ensembles de données. Cela permet aux développeurs d'économiser le coût et le temps nécessaires à la création d'ensembles de données à partir de zéro et leur donne une base qu'ils peuvent personnaliser pour créer leurs applications. Les modèles pré-entraînés peuvent aider à créer des applications d'IA dans des domaines tels que le traitement du langage naturel (NLP), l'IA vocale, la vision par ordinateur, les soins de santé, la cybersécurité et les arts créatifs.

Google a déclaré que Gemma a été formé sur un ensemble diversifié de documents textuels Web en anglais afin de l'exposer à un éventail de styles linguistiques, de sujets et de vocabulaire. Google a également formé Gemma au code du langage de programmation et au texte mathématique pour l'aider à générer du code et à répondre à des questions liées au code et aux mathématiques.

Qui peut utiliser Gemma ?

Bien que Gemma puisse être utilisé par tout le monde, il est principalement conçu pour les développeurs. Parce qu'il est open source, léger et largement disponible via les plateformes de développement et les appareils matériels, Gemma est censé "démocratiser l'IA".

Toutefois, l'ouverture des modèles d'IA à des fins commerciales comporte des risques. De mauvais acteurs peuvent utiliser l'IA pour développer des applications qui portent atteinte à la vie privée ou qui diffusent de la désinformation ou du contenu toxique.

Google a pris des mesures pour faire face à ces dangers avec Gemma. Il a publié un kit d'outils d'IA générative responsable pour Gemma, qui présente les meilleures pratiques pour une utilisation responsable de l'IA ouverte. Cette boîte à outils fournit des conseils pour définir des politiques de sécurité en matière de réglage, de classification et d'évaluation des modèles, ainsi qu'un outil d'interprétation de l'apprentissage pour aider les développeurs à comprendre le comportement des modèles de traitement du langage naturel (NLP). Elle comprend également une méthodologie pour construire des classificateurs de sécurité robustes.

Lors du lancement de Gemma, Google a déclaré qu'il avait été conçu "pour aider les développeurs et les chercheurs à développer l'IA de manière responsable". Les conditions d'utilisation de Gemma interdisent les applications offensantes, illégales ou contraires à l'éthique.

Google affirme également que Gemma est pré-entraîné par DeepMind pour omettre les contenus nuisibles, illégaux et biaisés, ainsi que les informations personnelles et sensibles. Il a également publié la documentation de son modèle détaillant ses capacités, ses limites et ses biais.

Les développeurs et les chercheurs ont un accès gratuit à Gemma dans Kaggle et Colab, une version Jupyter Notebook as-a-service. Les nouveaux utilisateurs de Google Cloud peuvent recevoir 300 dollars de crédits lorsqu'ils utilisent Gemma, et les chercheurs peuvent demander jusqu'à 500 000 dollars de crédits Google Cloud pour leurs projets Gemma.

Dernières mises à jour de Gemma

Gemma a connu de multiples itérations depuis ses débuts en 2024.

Parmi les mises à jour, on peut citer

Gem 1.1

Le 5 avril 2024, Google a publié Gemma 1.1, qui apporte des améliorations de performance et des corrections de bogues.

CodeGemma et RecurrentGemma

Le 9 avril 2024, Google a annoncé l'ajout de deux variantes pré-entraînées à la famille de produits Gemma : l'une pour le codage et l'autre conçue pour l'inférence et la recherche.

CodeGemma propose des tâches d'achèvement et de génération de code, ainsi que des capacités de suivi des instructions. Google a cité un certain nombre d'avantages liés à l'utilisation de ce modèle, dont les suivants :

  • Sa capacité à générer du code, même de grandes sections, localement ou en utilisant des ressources en nuage.
  • La précision accrue est due au fait que le logiciel a été "entraîné sur 500 milliards de mots-clés provenant principalement de données en langue anglaise".
  • Sa compétence multilingue, car CodeGemma comprend et peut travailler avec un certain nombre de langages de programmation, dont Python, JavaScript, Java, Kotlin et C++, entre autres.

RecurrentGemma utilise des réseaux neuronaux récurrents et l'attention locale pour optimiser l'utilisation de la mémoire. Google a indiqué qu'il était moins gourmand en mémoire que les autres modèles. Cela signifie qu'il peut générer des échantillons plus longs sur des appareils dotés d'une mémoire limitée, tels que des GPU ou des CPU uniques.

Google a également souligné la capacité du modèle à gérer des lots plus importants, ce qui permet une génération plus rapide, et a présenté son architecture sans transformateur comme une avancée dans la recherche sur l'apprentissage profond.

CodeGemma et RecurrentGemma sont construits avec JAX et sont compatibles avec JAX, PyTorch, Hugging Face Transformers et Gemma.cpp.

CodeGemma est également compatible avec Keras, Nvidia NeMo, TensorRT-LLM, Optimum-Nvidia, MediaPipe et disponible sur Vertex AI. RecurrentGemma ajoutera bientôt la prise en charge de ces produits.

PaliGemma

Le 14 mai 2024, Google a publié la version initiale de PaliGemma, un modèle de langage visuel (VLM) léger basé sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. Il s'inspire de Pali-3 et permet d'ajouter des légendes aux images et aux vidéos courtes, de poser des questions visuelles et d'y répondre, de comprendre le texte d'une image, de détecter des objets et de segmenter des objets.

PaliGemma est disponible sur GitHub, Hugging Face models, Kaggle, Vertex AI Model Garden et Ai.nvidia.com accéléré avec TensorRT-LLM. L'intégration est disponible via JAX et Hugging Face Transformers.

Gemma 2

Gemma 2 a été lancé avec les variantes 9B et 27B le 27 juin 2024. Une version à paramètre 2B a été lancée le 31 juillet 2024. L'extension à 27B a permis d'augmenter la puissance du modèle, bien que Google ait affirmé qu'il était toujours plus rapide qu'un modèle plus petit.

Avec Gemma 2, Google introduit une série d'améliorations architecturales, y compris de nouvelles techniques, dont Grouped-Query Attention (GQA), qui améliore l'efficacité du traitement du contenu.

ShieldGemma

Le 31 juillet 2024, Google a lancé ShieldGemma.

ShieldGemma est un modèle d'instruction pour l'évaluation de la sécurité des textes et des images. Il peut servir d'outil de modération du contenu, applicable à la fois aux entrées de l'utilisateur et aux sorties du modèle. ShieldGemma fait partie de la boîte à outils d'IA générative responsable de Google.

Gemma 3

Gemma 3 a été annoncé le 10 mars 2025, dans les tailles 1B, 4B, 12B et 27B.

Avec Gemma 3, Google a étendu la fenêtre contextuelle à 128 000 tokens, ce qui offre une capacité de traitement du contenu supérieure de plus de 50 % à celle de Gemma 2, dont la fenêtre contextuelle était de 80 000 tokens.

La prise en charge multilingue est également renforcée, Google affirmant que le modèle a été pré-entraîné pour prendre en charge plus de 140 langues différentes. Le raisonnement multimodal fait également partie de Gemma 3, permettant aux utilisateurs d'analyser et de raisonner sur du texte, des images et de courts contenus vidéo.

Gemma 3 est également la première version de Gemma optimisée pour le flux de travail de l'IA agentique. Le modèle permet désormais d'appeler des fonctions et d'obtenir des résultats structurés, ce qui permet aux développeurs de créer des flux de travail automatisés.

Pour approfondir sur IA appliquée, GenAI, IA infusée