
Worawut - stock.adobe.com
LLM : avec Gemini 2.5 Flash Lite, Google joue sur la corde « low-cost »
Le modèle proposé par le fournisseur de services cloud s’adresse aux entreprises qui recherchent performance, rentabilité et précision. Les analystes insistent sur la nécessité de tester ce couteau suisse avant de le déployer.
Avec la mise à disposition générale de Gemini 2.5 Flash-Lite, Google promet d’offrir un LLM multimodal (il prend en charge textes, documents, fichiers audio, vidéo et images en entrée) performant et « low cost ».
Gemini 2.5 Flash-Lite présente une latence inférieure à celle des modèles 2.0 Flash-Lite et 2.0 Flash, lancé à partir du mois de décembre dernier.
Gemini 2.5 Flash-Lite se présente surtout comme modèle le moins cher de Google, avec un prix de 0,10 $ par million de tokens en entrée et de 0,40 $ par million de tokens en sortie. En comparaison, Gemini 2.5 Flash coûte 0,30 $ par million de tokens en entrée et 2,50 $ par million de tokens en sortie.
Doté d’une capacité de raisonnement, Gemini 2.5 Flash-Lite permet également aux développeurs d’accéder à une fenêtre contextuelle d’un million de tokens. Les « budgets » de réflexion sont contrôlables, c’est-à-dire le temps ou le nombre de tokens consacrés aux phases de raisonnement.
De son côté, Google rappelle qu’il prend en charge d’outils tels que la recherche ancrée avec Google Search, l’exécution de code et la contextualisation par URL. La base de connaissances du LLM est arrêtée au mois de janvier 2025.
Google a publié un aperçu de Gemini 2.5 Flash-Lite en juin. Il est capable de générer jusqu’à 64 000 tokens textuels en un « tir ».
Pour rappel, les modèles de la famille Gemini 2.5 sont bâtis sur une architecture Sparse Mixture of Experts (SMoE). Ils n’activent donc qu’une partie de leurs paramètres à l’inférence. Cela les rend plus rapides.
Trouver un équilibre
Avec ce modèle, Google répond aux besoins des développeurs d’entreprise, qui tentent de trouver un équilibre entre la précision, la rapidité et le coût des modèles dont ils ont besoin pour créer leurs applications d’IA, selon Arun Chandrasekaran, analyste chez Gartner.
« Il est impossible d’obtenir les trois simultanément », nuance-t-il. « Si un modèle est très précis, il sera probablement plus cher et plus lent ».
Selon M. Chandrasekaran, Google mise sur de nombreuses applications, telles que la génération de contenu, le résumé et le codage, pour lesquelles les clients préféreraient un modèle plus petit en raison de la vitesse et du coût.
« J’aimerais croire qu’une grande partie des cas d’usage de ce modèle pourraient se situer dans le domaine du langage et peut-être de la programmation », envisage l’analyste. « Google procède à des mises à jour incrémentielles à chaque version du modèle ».
Dans sa documentation, le géant du cloud explique que Gemini 2.5 Flash Lite est « bien adapté pour les applications qui traitent un grand volume de tâches, rapidement et à bas coût ». Malheureusement, l’interprétation des benchmarks fournis par Google (et ses concurrents) demeure complexe à comprendre pour les entreprises. D’autant qu’ils reflètent des résultats uniquement sur des tâches académiques, à partir de données sciemment préparées.
Des avantages à prouver
Alors que la communication de Google présente ce modèle comme un équilibre entre performance et rapidité, les entreprises devraient être plus critiques, affirme pour sa part Rowan Curran, analyste chez Forrester Research.
« Pour les entreprises, il s’agit d’un outil parmi d’autres lorsqu’il s’agit d’examiner les performances de divers types d’applications qui reposent sur de grands modèles de langage », avance-t-il.
Tout comme les moutons à cinq pattes ne courent pas les prés des DSI, en matière d’IA générative, les modèles couteaux suisses ne manquent pas de lames émoussées. À chaque cas d’usage, son modèle, défend l’analyste de Forrester.
« Les améliorations continues des [différents LLM] sont vraiment importantes pour les entreprises, car les besoins en modèles varient en fonction du cas d’usage ou d’un sous-projet de ce cas d’usage », poursuit Rowan Curran. « Les entreprises doivent rechercher des modèles adaptés à leur cas d’utilisation ».
Toutefois, peu nombreux sont les experts à évoquer le fait que les applications SaaS infusées voient leur prix augmenter de manière significative, quand la tarification des LLM chute de mois en mois. Cela semble pourtant important pour les développeurs et les entreprises. Selon la plateforme OpenRouter, Gemini 2.0 Flash et 2.5 Flash les deuxième et troisième LLM en matière de tokens traités ce mois-ci, derrière Claude Sonnet 4, un modèle performant, mais plus cher (3 dollars pour 1 millions de tokens en entrée, 15 dollars en sortie).