Gemini 3 Pro : Google impose sa vision de l’IA multimodale
Avec Gemini 3 Pro, Google entend prouver sa maîtrise en matière d’IA multimodale tout en conservant sa recette secrète. Le fournisseur présente un LLM plus performant, bientôt infusé dans tous ses produits, mais plus cher que Gemini 2.5 Pro.
Gemini 3 doit avoir le don d’ubiquité. Google a annoncé la préversion de Gemini 3 Pro, un modèle de langage d’ores et déjà disponible à travers l’App Gemini, Vertex AI, Gemini Enterprise, AI Studio, l’API Gemini, l’IA mode de son moteur de recherche (indisponible en France) et un nouvel IDE « agentique » intitulé Antigravity. Il sera prochainement suivi par une déclinaison dénommée Deep Think, un modèle de raisonnement « profond ».
Gemini 3 Pro est présenté comme le champion de sa catégorie
Sans trop de surprise, les porte-parole du groupe prétendent que les modèles surpassent (de peu) les concurrents de premier plan à savoir Claude Sonnet 4.5 et GPT 5.1. Google met surtout en avant le fait que Gemini 3 Pro fait bien mieux que Gemini 2.5 Pro dans la plupart des domaines.
Gemini 3 Pro réaliserait 30 % d’appel de fonction en plus comparé à 2.5 Pro, selon Philipp Schmid, Ingénieur senior responsable des relations développeurs chez Google DeepMind.
Le LLM profiterait de gains de 20 % en matière de programmation, et de 15 % en matière de connaissances par rapport à son prédécesseur.
« Avec Gemini 3, Google poursuit son avance en matière de raisonnement multimodal et de programmation », croit de son côté Holger Mueller, analyste chez Constellation Research.
Les résultats sont difficiles à vérifier, mais Google s’entoure de partenaires qui attestent des gains observés.
« Gemini 3 représente une avancée significative dans le domaine de l’IA multimodale », affirme Yusuke Kaji, directeur général IA for Business chez Rakuten, dans un communiqué de presse. « Rakuten s’est associé à Google pour effectuer des tests alpha, et sa capacité à gérer les conditions réelles des modalités audio et visuelles, en particulier dans des scénarios difficiles tels que le chevauchement des locuteurs ou les images floues, le distingue pour les applications d’entreprise ».
« Nous avons observé des gains mesurables et significatifs dans le raisonnement légal et la compréhension de contrat complexe », assure pour sa part Joel Hron, directeur technique chez Thomson Reuters.
La plupart des acteurs invoqués (GitHub, Box, SAP, Windsurf, Shopify, Geotab, etc.) sont des éditeurs.
D’autres arrivent avec des chiffres à l’appui.
« Le nouveau LLM ultramoderne de Google a dominé 14 des 16 classements que nous avons analysés. Ils montrent des améliorations significatives de la factualité », affirment les porte-parole de Kaggle, une communauté de data scientists animée par Google.
Artificial Analysis a réalisé ses propres évaluations de Gemini 3 Pro. Le modèle est passé en tête de son classement dans cinq des 10 tests qui compose son index. Cela en fait, selon le cabinet « indépendant » qui a eu accès au modèle en avant-première, un « leader » dans son domaine bien loin devant Gemini 2.5 Pro. Par-dessus le marché, il est plutôt rapide (128 tokens par seconde).
Outre les gains observés, Google maîtrise mieux sa communication qu’OpenAI sur les épisodes GPT-5 et 5.1. Il y a toutefois quelques ombres au tableau.
Une première place qui se paie plus cher
« L’aperçu de Gemini 3 Pro atteste d’une amélioration de l’efficacité par rapport à Gemini 2.5 Pro, en utilisant beaucoup moins de tokens sur l’indice d’intelligence que d’autres modèles de premier plan tels que Kimi K2 Thinking [un LLM chinois qui a étonné par ses performances, N.D.L.R] et Grok 4 », notent les auteurs de l’étude d’Artificial Analysis. « Toutefois, compte tenu de son prix élevé (2 $/12 $ par million de tokens d’entrée/sortie pour un contexte de moins de 200 000 tokens, 4 $/18 $ au-delà), Gemini 3 Pro est l’un des modèles les plus coûteux pour exécuter notre évaluation Intelligent Index ».
Gemini 2.5 Pro est facturé 1,25 dollar en entrée et 10 dollars en sortie par million de tokens pour les requêtes de moins de 200 000 tokens. Dans les deux cas, ces tarifs demeurent plus abordables que ceux pratiqués par Anthropic avec Claude Opus 4.1 et Claude Sonnet 4.5. GPT-5 est au même prix que Gemini 2.5 Pro.
Le géant du cloud conserve ses secrets de fabrication
Deuxième ombre au tableau non négligeable, Google n’explique pas véritablement comment il a obtenu ces gains.
Gemini 3 Pro est toujours un grand modèle de langage multimodal capable d’ingérer du texte, des images, des vidéos, des sons et des PDF. Il répond uniquement sous forme de texte. Google DeepMind maintient une fenêtre de contexte de 1 million de tokens en entrée. Gemini 3 Pro peut générer 65 000 tokens en un tir. Sa connaissance du monde (majoritairement d’Internet) s’arrête au mois de janvier 2025. Appels de fonction, recherche Web, exécution de code, capacité à fournir des sorties structurées… sur le papier, il ne fait ni mieux ni moins bien que ses concurrents.
Google ne précise pas le volume de données pour l’entraîner. Le fournisseur indique seulement que le jeu de données de réentraînement est « très important ». Il contient des données publiques dont des PDF, du texte, du code, des images, des fichiers audio et vidéo. Des données issues des produits de Google (dont les interactions avec ses précédents LLM), des jeux propriétaires achetés, des données synthétiques et des informations obtenues auprès de ses employés complètent cet ensemble.
« Le jeu de données post-entraînement inclut différents types de données d’ajustement d’instructions, de données d’apprentissage par renforcement et de préférences humaines », précisent les chercheurs. « Gemini 3 Pro est entraîné en utilisant des techniques d’apprentissage par renforcement qui peuvent exploiter des données de raisonnement multiétapes, de résolution de problèmes et de démonstration de théorèmes ».
Ils indiquent que le modèle est toujours basé sur un Transformer couplé à la technique du mix épars d’experts (SMoE). Celle-ci permet de ne déclencher qu’un nombre restreint de paramètres à l’inférence. Un moyen de réduire la puissance de calcul nécessaire à son exécution, même si tous les paramètres doivent rester en mémoire.
Les informations sur l’infrastructure requise pour son exécution et son entraînement demeurent très parcellaires. Pas de bilan carbone non plus.
« Nous avons passé des mois à travailler pour créer le modèle Gemini 3.0 », écrit Bill Jia, ingénieur ML/IA chez Google sur LinkedIn. « Le modèle a été construit nativement en utilisant le cadre JAX ML et il a été préentraîné en utilisant un grand nombre de TPU avec la compilation XLA », évoque-t-il. « Nous avons résolu de nombreux problèmes en cours de route grâce à plusieurs phases d’amélioration/optimisation ».
La carte du modèle contiendrait « davantage d’informations » que par le passé. LeMagIT ne voit pas de grandes différences avec Gemini 2.5. Si ce n’est que la documentation a été subdivisée pour distinguer la fiche technique très légère (9 pages), et les évaluations de sécurité (26 pages). Les gains en matière de résistance aux hallucinations et de non-propagation des contenus sensibles sont mineurs.
Il y a toutefois quelques indices sur les lignes directrices des chercheurs. Outre le raisonnement par étape (un atout pour les agents IA), les ingénieurs de Google mentionnent que l’entraînement a porté en partie sur la compréhension des captures d’écran. D’après Philipp Schmid, Gemini 3 Pro comprendrait « six fois mieux » les écrans que Gemini 2.5 Pro. Google travaille notamment sur la génération d’interface utilisateur, une fonction intégrée dans AI Mode pour les clients américains abonnés à AI Pro et Ultra. Ce système mêle compréhension des images, raisonnement en chaîne et génération de code pour faire varier des UI suivant la demande de l’usager. De même, le LLM est capable de générer davantage de visualisations pertinentes. Figma exploite cette possibilité dans un mode expérimental.
Reste à voir maintenant si et comment les entreprises exploiteront ces fonctions.
