La version 1.0 de Gemini, cette collection de modèles multimodale, est capable de comprendre du texte, du code, des images, des fichiers audio et vidéo et de générer du texte, du code et des images.

La collection annoncée hier se compose de trois types de variantes : Gemini Ultra, Pro et Nano. Gemini Ultra serait le plus gros LLM (Large Language Model) de Google à ce jour conçu pour effectuer des tâches complexes, tandis que sa déclinaison Pro doit proposer un bon niveau de performance à un coût d’inférence plus faible dans de nombreux domaines. Nano est la gamme de modèles la plus efficiente, pouvant s’exécuter sur des smartphones.

Seuls les modèles Pro et Nano 1 et 2 sont disponibles. Les phases d’apprentissage par renforcement avec retours d’informations humains et de red teaming réservées à Gemini Ultra ne sont pas terminées, précise Google.

Gemini 1.0 intègre déjà les produits Google et Google Cloud « Dans le cadre de ce processus, nous mettrons Gemini Ultra à la disposition de certains clients, développeurs, partenaires et experts en matière de sécurité et de responsabilité pour des essais préliminaires et un retour d’information avant de le déployer auprès des développeurs et des entreprises clientes au début de l’année prochaine », indique l’entreprise. Pro, Nano 1 et Nano 2 sont en cours de déploiement dans les produits de Google dans 170 pays, en anglais dans un premier temps. Son assistant Bard, utilise une version fine-tuné de Gemini Pro quand il est interrogé dans la langue de Shakespeare. L’année prochaine, Le Pixel 8 Pro aura le droit à l’intégration de modèles Nano dans une application d’enregistrement pour propulser une fonction de résumé et de réponse « intelligente » dans WhatsApp. « Dans les mois à venir, Gemini sera disponible dans un plus grand nombre de nos produits et services tels que Search, Ads, Chrome et Duet AI », renseigne le géant du Cloud. Dès le 13 décembre prochain, les entreprises pourront tester Gemini Pro à travers l’API disponible dans Google AI Studio et Vertex AI. Comme au lancement de PalM-2, Google se réserve bien de détailler toutes les spécifications techniques de ces LLM. Nano-1 et Nano-2 ont tout de même le droit à un traitement de faveur. Le géant du cloud est fier d’avoir réussi à produire deux modèles suffisamment petits pour s’exécuter sur des smartphones. Nano-1 est doté de 1,8 milliard de paramètres, tandis que Nano-2 dispose de 3,25 milliards de paramètres. Les modèles Nano ont été distillés à partir de la variante Ultra, puis quantisé (compressé) sur 4 bits.

Un entraînement multicentre de données À l’inverse, Gemini Ultra est si gros qu’il a nécessité plusieurs « SuperPods » de TPUv4 (un SuperPod de TPUv4 contient 4 096 puces interconnectées à un switch optique dédié) et TPUv5e répartis à travers plusieurs data centers à l’aide d’un réseau intra et intercluster. « Les temps de latence et les largeurs de bande passante réseau de Google sont suffisants pour prendre en charge le paradigme de formation synchrone couramment utilisé qui exploite le parallélisme des modèles et des données au sein des SuperPods », assurent les chercheurs de Google. Or, plus d’équipements impliquent davantage de défaillances matérielles et logiciels. Un problème rare, la corruption de données silencieuse, devient récurrent. Ce phénomène se produit quand un CPU affecté par des fluctuations électriques génère des erreurs de calcul. Le failover après panne hardware devient clé. Pour ce faire, Google a mis en place des systèmes de rejeu « déterministes » pour isoler les erreurs de calcul et des scanners pour détecter la corruption de données silencieuse. Selon les chercheurs de Google, les capacités mobilisées sont « significativement plus importantes » que celles exploitées pour entraîner PaLM-2. L’architecture logicielle ne change pas. Google a mis à contribution son système Pathway et son framework JAX. Google s’appuie sans surprise sur un réseau de neurones Transformer modifié avec un système d’attention multirequête (MQA, contrairement à Meta AI qui préfère la technique GQA). Les modèles ont été entraînés avec et disposent d’une fenêtre de contexte de 32 000 tokens (contre 200 000 pour Claude 2.1 et 128 000 tokens pour GPT-4-Turbo). « Au cours de l’entraînement de Gemini Ultra, nous avons obtenu un goodput de 97 % (goodput : le temps passé à calculer de nouvelles étapes utiles par rapport au temps écoulé de la formation) », indique Jeffrey Dean, directeur scientifique chez Google DeepMind et Google Research, sur X (Twitter). Ce score atteignait 85 % lors de la formation de PaLM et PaLM 2. Clairement, GCP se passe bien de Nvidia.

Plus de données, oui, mais lesquelles ? Il n’y a pas non plus de détails concernant la taille du jeu de données. Google évoque seulement la méthode pour identifier la quantité de données nécessaire à l’entraînement. Les chercheurs se sont appuyés sur le constat effectué par DeepMind au moment d’entraîner le modèle Chinchilla : « pour chaque doublement de la taille du modèle, le nombre de tokens d’apprentissage doit également être doublé ». Ce ratio n’est pas respecté pour les petits modèles distillés : la quantité de données est plus élevée que le nombre de paramètres. La grosse différence tient dans le fait que le jeu de données de préentraînement ne contient plus seulement des textes, des exemples de code, des documents, des livres, mais aussi des images, des fichiers audio et des données vidéo. Ces données ont été divisées en tokens (des séquences de caractères Unicode) à l’aide du tokeniser SentencePiece. Celui-ci a été entraîné sur un « gros échantillon de l’ensemble du jeu de préentrainement », ce qui permettrait d’obtenir un vocabulaire plus riche en sortie des modèles. Ces données ont été filtrées à l’aide de règles heuristiques, des algorithmes de classification et d’autres techniques afin d’obtenir des données de qualités et « sûres ». Pour les modèles plus petits, ce jeu de données a été revu à la baisse et les chercheurs ont réglé le mix et le poids des données en privilégiant « certains domaines de connaissance ». Comme au moment de présenter PaLM et PaLM 2, les chercheurs insistent sur la nécessaire mise en qualité des données, un défi en cours pour l’ensemble de la communauté de l’IA.