Gemini 3.1 Pro : Google, leader en raisonnement, à la traîne en IA agentique
Google entend s’imposer face à OpenAI et Anthropic en misant sur le raisonnement, son approche multimodale et sur le prix de son fleuron Gemini 3.1 Pro. Dans les faits, les résultats générés par son modèle d’IA tendent à montrer qu’une sérieuse maîtrise de la chaîne d’outils entourant les modèles demeure nécessaire.
Cycle désormais habituel pour les fournisseurs de LLM, c’est au tour de Google de dégainer de nouveaux modèles de langage.
Après Gemini 3 Pro Deep Think, le géant du Web et du Cloud a lancé la préversion de Gemini 3.1 Pro. Là où avec Deep Think le fournisseur se concentre sur la recherche profonde dans les domaines des sciences et de la R&D, 3,1 pro cible davantage les développeurs, les entreprises et, dans une moindre mesure, les particuliers.
Gemini 3.1 Pro ne s’appuie pas sur une nouvelle architecture. C’est une déclinaison de Gemini 3 Pro, un modèle de raisonnement multimodal (texte, image, audio, vidéo et PDF en entrée, texte en sortie) basé sur une architecture Transformer à mix épars d’experts (Sparse Mixture of Experts). Plus important pour le commun des mortels, il dispose d’une fenêtre de contexte d’un million de tokens et peut générer jusqu’à 65 000 tokens en une seule fois. Pour mémoire, Anthropic a porté ce second quota à 128 000 tokens sur ces modèles de la collection Claude 4.6. La date limite des connaissances de Gemini 3.1 Pro est fixée au mois de janvier 2025 (sans outil de recherche).
Programmation, flux agentique, gestion de long contexte, compréhension multimodale et le développement d’algorithme sont les priorités de Google DeepMind. Les évolutions opérées, selon le fournisseur, sont guidées par les retours de ses clients. Les appels d’outils, les sorties structurées et le mode JSON sont toujours de la partie.
« Sur ARC-AGI-2, un benchmark qui évalue la capacité d’un modèle à résoudre des schémas logiques entièrement nouveaux, 3,1 Pro a obtenu un score vérifié de 77,1 %. C’est plus du double de la performance de raisonnement de 3 Pro », affirment les ingénieurs de Google DeepMind.
Et le fournisseur de démontrer des capacités de génération d’animation SVG plus crédible que celle produite par Gemini 3 Pro.
Le cabinet Artificial Analysis, qui a eu accès au modèle en avance, constate que Gemini 3.1 Pro prend la tête de six des 10 évaluations de son benchmark Intelligence Index. Il reprend donc la main face à Opus 4.6. Il le fait surtout en consommant un peu moins de tokens (57 millions de tokens) qu’Opus 4.6 (58 millions de tokens), plus de la moitié moins que GPT-5.2 (130 millions de tokens). Cela reste tout de même très verbeux : la moyenne du classement s’établit à 12 millions de tokens pour passer le benchmark. Gemini 3,1 Pro est aussi plus rapide (106 tokens par seconde) qu’Opus 4.6 Max (70 tokens/s) et GPT-5.2 Thinking xhigh (84 tokens/s).
Gemini 3.1 Pro Preview : plus performant, moins cher que ses compétiteurs, sauf dans les tâches agentiques
Cerise sur le gâteau, les prix pratiqués par Google sont plus doux que ses compétiteurs. « Gemini 3.1 Pro Preview se distingue par son efficacité économique parmi les modèles frontières : il coûte moins de la moitié du prix d’Opus 4.6 (max) pour exécuter l’intégralité de l’Intelligence Index, mais reste presque deux fois plus cher que le champion du moment des modèles open weight, GLM-5 », affirment les analystes d’Artificial Analysis.
Gemini 3.1 Pro preview coûte 2 dollars pour un million de tokens cumulés en entrée et 12 dollars pour le même volume en sortie. Le prix passe à 4 dollars en entrée quand un prompt dépasse la fenêtre contextuelle de base de 200 000 tokens. À ce moment-là, le million de tokens en sortie passe à 18 dollars. Une tarification inchangée par rapport à Gemini 3 Pro.
De plus, Gemini 3.1 Pro hallucine bien moins que Gemini 3 Pro, l’un des problèmes que les usagers peuvent constater sur l’application Gemini. L’amélioration constatée serait due au fait que le modèle cherche moins « à deviner la réponse des questionnaires utilisés quand il ne sait pas la réponse ». De son côté, Google assure qu’il reste « en deçà des seuils » de risques en matière de toxicité et de sécurité. Des seuils que ces chercheurs ont eux-mêmes fixés. Ce qui n’empêche pas une légère progression dans son potentiel de cybermalveillance.
Gemini 3.1 Pro Preview n’est pour autant pas leader dans toutes les catégories. Comme Opus 4.6 et GPT-5.2, il se fait rattraper par Sonnet 4.6 sur les tâches agentiques. Google DeepMind semble au courant des efforts à mener. « Nous lançons la préversion de 3.1 Pro afin de valider ces mises à jour et de continuer à faire des progrès dans des domaines tels que les flux de travail agentiques complexes, avant de le passer en disponibilité générale prochainement », écrivent ses porte-parole.
Les partenaires s’expriment également sur le modèle qu’ils implémentent dans leurs outils. Gemini 3.1 Pro semble se distinguer dans les tâches de programmation.
« Les premiers tests démontrent que ce modèle [Gemini 3.1 Pro] est efficace et efficient dans l’édition de code et l’exécution de boucle de tests et dispose d’un haut niveau de précision, ce qui lui permet d’afficher de bons résultats avec moins d’appels à des outils », déclare Gwyneth Pena-Siguenza, senior cloud advocate chez Microsoft, dans une vidéo pour présenter l’intégration du modèle dans GitHub Copilot. « Ce que j’ai pu vérifier moi-même ».
De son côté, Jetbrains note des améliorations du code généré de l’ordre de 15 % par rapport à Gemini 3 Pro Review.
Après « l’alert fatigue », « l’AI fatigue » ?
Toutefois, les démonstrations ne suffisent plus. Un usager a tenté de reproduire les capacités d’animations SVG évoquées plus haut. Le résultat obtenu est beaucoup plus basique que celui démontré par Google. D’autres obtiennent des résultats plus proches de la qualité vantée par le fournisseur. Certains vont plus loin et essaye de lui faire générer des modèles 3D Mesh et paramétriques avec des résultats prometteurs.
« C’est génial, tout comme les benchmarks. [Mais] il se trompe encore ÉNORMÉMENT (sic). »
Danny ThompsonSenior developer, Atlassian
Pour autant, les développeurs sont toujours partagés entre l’enthousiasme de manipuler des modèles toujours plus performants, chaque semaine, tout en ayant l’impression qu’ils échouent là où ils devraient être véritablement utiles.
« Aujourd’hui, Gemini 3.1 Pro vient de sortir. C’est génial, tout comme les benchmarks. [Mais] il se trompe encore ÉNORMÉMENT (sic) », affirme Danny Thompson, senior developer chez Atlassian, sur LinkedIn. « Si vous ne savez pas comment identifier, expliquer les bugs et comprendre la programmation pour les réparer, vous l’avez dans l’os ».
Gemini 3.1 Pro Preview est disponible depuis Vertex AI, Gemini Enterprise, Google AI Studio, Android Studio, l’IDE Google Antigravity, Gemini CLI, GitHub Copilot, Databricks, Notebook LLM et dans l’application Gemini. Un cadre de distribution élargie qui sied aux ambitions du fournisseur.
Pour approfondir sur IA appliquée, GenAI, IA infusée