sdecoret - stock.adobe.com

Gemini 3.5 Flash est rapide, mais pas aussi intéressant que l’affirme Google

Gemini 3.5 Flash se rapproche des plus grands modèles tels que GPT-5.5 et Claude Opus 4.7, tout en coûtant bien moins cher. Toutefois, la consommation de tokens est en hausse, malgré les affirmations de Google.

Google a profité de sa conférence I/O pour présenter ses nouveaux grands modèles de langage, à commencer par la collection Gemini 3.5

Le premier modèle de cette collection disponible en préversion se nomme Gemini 3.5 Flash. Le LLM multimodal (texte, audio, image, vidéo, fichiers PDF en entrée, texte en sortie) est à nouveau doté d’une fenêtre de contexte d’un million de tokens. Il peut générer jusqu’à 64 000 tokens en un « tir ».

Gemini 3.5 Flash se débrouille bien sur les tâches agentiques

Techniquement, Google a fine-tuné Gemini 3 Flash, lui-même basée sur Gemini 3 Pro. Gemini 3.5 Flash s’appuie donc sur une architecture SMoE, un mix épars de réseaux de neurones experts entraîné à partir d’une combinaison de données publiques et propriétaires, dont des données synthétiques. Google n’en dit pas davantage sur les efforts nécessaires lors de ce réentraînement ni le type de données utilisées.

Ce « petit modèle » en comparaison de Gemini 3.1 Pro, de Claude Opus 4.7 et de GPT 5.5 arriverait, selon les benchmarks de Google à dépasser ou à égaler ces autres LLM sur différentes tâches de programmation, d’utilisation d’outils via MCP, de connaissances générales ou dans l’accomplissement de tâches spécialisées comme l’analyse financière. Il pêcherait surtout dans la recherche d’information au sein de grande base documentaire.

Selon le cabinet Artificial Analysis qui a eu accès au modèle en accès anticipé, Gemini 3.5 Flash se positionne en cinquième place de son Index Intelligence, derrière les modèles qu’il est censé égalé. En revanche, il répond bien plus rapidement que ses compétiteurs avec une vitesse de pointe 280 tokens à la seconde, soit le double de Gemini 3.1 Pro et le quadruple de GPT-5.5. Google DeepMind semble s’être concentré sur les tâches agentiques, un domaine où il passe devant Gemini 3.1 Pro et 3 Flash, sans dépasser GPT-5.5, Claude Opus 4.7 et Claude Sonnet 4.6.

Cinq fois plus cher que Gemini 3 Flash

Son plus gros défaut, d’après le cabinet spécialisé, n’est autre que sa gourmandise en volume de tokens. Pour accomplir l’ensemble des parangonnages, Gemini 3.5 Flash est cinq fois plus cher que Gemini 3 Flash et 75 % plus coûteux que Gemini 3.1 Pro (!).

« Gemini 3.5 Flash coûte 1,50 dollar par million de tokens en entrée et 9 dollars par million de tokens en sortie, tandis que Gemini 3 Flash coûte 0,5 $ et 3 $ respectivement par million de tokens en entrée et en sortie, soit le triple », renseigne Artificial Analysis. « Le reste de cette augmentation s’explique par une utilisation plus importante des tokens lors de l’exécution de nos tests de performance ». À noter que la mis en cache des données en entrée est facturée 90 % moins cher.

C’est en tout cas un net recul par rapport à Gemini 3.1 Pro qui faisait figure de bon élève (57 millions de tokens sur les tests d’Artificial Analysis). Les ingénieurs de Google DeepMind expliquent qu’ils ont entraîné Gemini 3.5 Flash « pour être plus précis [et] qu’il s’investisse davantage dans les tâches complexes à long terme ». Cet effort vise à contrer les modèles Claude d’Anthropic et GPT d’OpenAI auprès des développeurs. Ces deux acteurs ont suivi le même schéma, ce qui a conduit à une explosion du volume de tokens généré lors des phases de raisonnement.

De son côté, Sundar Pichai, CEO de Google et d’Alphabet a affirmé que Gemini Flash 3.5 pouvait accomplir certaines tâches pour la moitié, voire le tiers du prix d’un LLM concurrent.

Claude 4.7 est facturé 5 dollars pour 1 million de tokens en entrée, et 25 dollars pour le même volume en sortie. GPT 5.5 coûte 5 dollars pour 1 million de tokens en entrée et 30 dollars en sortie. Sur le banc d’essai d’Artificial Analysis, Claude 4.7 consomme en moyenne 110 millions de tokens, contre 75 millions pour GPT-5.5, soit un peu plus que Gemini 3.5 Flash (73 millions).

Un modèle à combiner avec d’autres LLM

Et Sundar Pichai d’indiquer que les gains en matière de réduction de volume de tokens s’obtiendraient « en combinant Gemini 3.5 Flash et d’autres modèles ».

Une autre collection de LLM sous le giron de Google pourrait intervenir dans ce mix. Les résultats obtenus par l’équipe B de Google DeepMind, celle qui se concentre sur les modèles open weight Gemma ne sont pas reflétés par les benchmarks.

« Claude Opus 4.6 et 4.7 sont toujours meilleurs pour raisonner, mais Gemma 4 est une bonne alternative pour le travail quotidien, le design et le codage de base – tout cela de manière gratuite et en local dans un environnement privé », témoigne Stefan Deusch, Data Platform Modernization Architect, chez Robots & Pencils, un cabinet de conseils spécialisé en ingénierie appliquée à l’IA.

Le plus grand modèle de la collection, Gemma 4 31B, a besoin de 39 millions de tokens pour accomplir les tests d’Artificial Analysis, et la version Gemma 4 E4B, seulement 22 millions. Gemma E4B n’a pas besoin du cloud ni des GPU les plus puissants pour s’exécuter. En local, un MacBook, un iMac mini équipé d’un SoC M2 à M5 ou un ordinateur doté d’une RTX 5060 Ti 16 Go suffisent amplement. Dans le cloud, une instance équipée d’une carte Nvidia A10 ou L4 semble idéale.

Gemini 3.5 Flash est disponible à travers l’App Gemini l’API, Gemini Enterprise, Gemini Enterprise Platform, Google AI Mode, AI Studio, Android Studio et l’IDE agentique Antigravity.

Google a également présenté Gemini Omni Flash, un modèle permettant de combiner, texte, audio, vidéo et image en entrée pour générer des vidéos avec du son en sortie. Ce Transformer accolé à un modèle de diffusion devrait principalement servir à ajouter des effets visuels sur des vidéos, pour les utilisateurs de Google AI Plus, Pro et Ultra et à travers les outils de montage YouTube. Une version disponible par API sera prochainement disponible. Les informations disponibles depuis la carte du modèle sont chiches. La seule technique dévoilée est l’usage de LLM pour annoter les fichiers audio et vidéo avec « différents niveaux de détails ».

Pour approfondir sur IA appliquée, GenAI, IA infusée