S’ils ne sont pas meilleurs que ceux d’OpenAI ou DeepSeek, les modèles Gemini 2.0 de Google affichent un rapport performance-prix séduisant. Encore faut-il que Google Cloud arrive à suivre la demande.
Après avoir lancé la version expérimentale de Gemini 2.0 Flash en décembre, Google a présenté la disponibilité générale de son modèle multimodal (texte, image et audio) à travers Google AI Studio et Vertex AI. Le groupe a également lancé la préversion de Gemini 2.0 Flash lite, une variante plus légère, plus rapide et surtout moins chère, ainsi que la version expérimentale de Gemini 2.0 Flash Thinking, un modèle de raisonnement multimodal (image et texte), dont les performances semblent proches d’o3-mini.
Enfin, Gemini 2.0 Pro entre en version expérimentale. La grande différence tient en des performances au-dessus des autres modèles Gemini, mais aussi une fenêtre de contexte de 2 millions de tokens, contre 1 million de tokens avec les autres modèles. Toutefois, il ne peut répondre qu’avec un texte d’une longueur de 8 000 tokens. Seul Gemini Flash Thinking peut générer une réponse plus longue de 64 000 tokens. Google assure qu’il est utile pour gérer des prompts complexes et générer du code.
Des modèles plus légers, plus rapides et moins chers
De manière générale, les modèles ont accès à deux outils : Google Search et l’exécution du code. Sauf Gemini Flash Lite. Depuis Google Cloud, Flash Thinking n’a pas accès à la recherche sur le Web. En revanche, la version disponible depuis l’application Gemini Web, Android et iOS peut interagir avec YouTube, Search et Maps. Les abonnés à Gemini Advanced peuvent tester Gemini 2.0 Pro.
Mais ce sont surtout les prix qu’il faut regarder. Google Cloud facture Gemini 2.0 Flash au tarif de 0,10 dollar par million de tokens en entrée et 0,40 par million de tokens en sortie. L’équivalent d’un million de tokens pour les fichiers audio en entrée est facturé 0,7 dollar. Les sorties sont au même prix. Bientôt, Google cloud proposera de mettre en cache le contexte à 0,025 dollar pour 1 million de tokens et à 0.0175 dollar pour l’audio.
Flash Lite est facturé 0,075 dollar pour 1 million de tokens en entrée (texte et audio), et 0,30 dollar en sortie (0,0185 dollar par million de tokens en cache).
Certes, les LLM Google n’affichent pas les plus hauts niveaux de précision, mais leur rapport performance-prix place Google cloud dans une position intéressante.
A contrario, le prix des offres Workspace, qui incluent désormais les fonctions d’IA générative, ont récemment vu leur prix augmenter de 17 %.
Google Cloud s’équipe pour répondre à la demande croissante
Cette stratégie semble payer. Selon Google, 4,4 millions de développeurs utilisent les modèles Gemini, soit le double par rapport à il y a six mois. Le géant du cloud ne précise pas combien d’entre eux sont membres d’une organisation cliente. Néanmoins, Vertex AI serait utilisé par cinq fois plus de clients qu’il y a un an. De la même manière, la consommation de puissance de calcul pour l’entraînement et l’inférence a été multipliée par huit en un an et demi.
« Nous constatons et avons constaté une très forte demande pour les produits d’IA au quatrième trimestre de 2024. »
Anat AshkenaziCFO, Alphabet
Au quatrième trimestre fiscal 2024, la division cloud d’Alphabet a réalisé un chiffre d’affaires de 11,95 milliards de dollars, en hausse de 30 % par rapport au Q4 2 023. Néanmoins, Anat Ashkenazi, CFO d’Alphabet, a prévenu les analystes financiers. « Nous constatons et avons constaté une très forte demande pour les produits d’IA au quatrième trimestre de 2024. Nous avons terminé l’année avec une demande supérieure à notre capacité disponible », affirme-t-il.
« Nous nous trouvons donc dans une situation d’offre et de demande serrées, et nous travaillons très dur pour mettre en ligne davantage de capacités », poursuit-il. « Comme je l’ai mentionné, nous avons augmenté les investissements en CapEx en 2024, nous continuons à les augmenter en 2025, et nous apporterons plus de capacité tout au long de l’année ».
Alphabet prévoit d’investir 75 milliards de dollars au cours de l’année 2025, principalement dans l’achat d’infrastructure lié au cloud et à l’IA.
Pour approfondir sur IA appliquée, GenAI, IA infusée