Andrey Popov - Fotolia
Non, Claude Sonnet 5 n’est pas forcément moins cher qu’Opus 4.8
Taillé pour l’IA agentique et la programmation, Claude Sonnet 5 réduit l’écart avec Opus 4.8. Moins cher sur le papier, le LLM consomme plus de tokens que son prédécesseur Sonnet 4.6… et Opus 4.8. Un comportement qui se reflète dans le coût à la tâche accomplie, environ 15 % supérieur à celui d’Opus 4.8, selon Artificial Analysis.
S’il ne peut pas proposer à tout le monde ses modèles consacrés à la cybersécurité, Anthropic poursuit la mise à jour des modèles Haiku, Sonnet et Opus.
Hier, il a présenté Claude Sonnet 5, un modèle dérivé de Claude Sonnet 4.6. Pour rappel, la société n’a pas lancé de versions 4.7 et 4.8 de ce modèle de taille intermédiaire. Il est disponible depuis sa plateforme, Microsoft Foundry, Amazon Bedrock, Google Enterprise Agent Platform et à peu près toutes les bonnes crémeries IA.
IA agentique et programmation : Sonnet 5 égale Opus 4.8… au prix d’une flambée de la consommation de tokens
Claude Sonnet 4.6 est apprécié des développeurs. Il se plaçait dans la continuité du travail effectué avec Sonnet 3.5, dont la sortie avait marqué un tournant pour la programmation. Anthropic inscrit Sonnet 5 dans cette lignée : il serait le modèle Sonnet « le plus agentique » à ce jour.
Par ailleurs, Sonnet 5 réduit à nouveau l’écart avec Opus 4.8 tout en étant moins cher, dixit l’entreprise.
Selon les parangonnages effectués par Artificial Analysis, Claude Sonnet 5 se situe à trois points de pourcentage derrière Claude Opus 4.8, et un point derrière Opus 4.7. Avec un score de 53 sur 100, Sonnet 5 est sur le papier ex aequo avec GPT-5.5. Il est en revanche devant le modèle chinois GLM 5.2. Sur les tâches agentiques, Sonnet 5 dépasse de très peu Opus 4.8.
À noter que le LLM, qui n’a pas été entraîné pour les flux de travail de cybersécurité, est protégé par une nouvelle passerelle et probablement des classifieurs proches de ceux de Fable 5. En effet, s’il est loin d’atteindre le niveau d’Opus 4.8 et Mythos 5 sur cet aspect, il fait mieux que Sonnet 4.6.
Pour obtenir ces scores, Sonnet 5 « travaille plus dur » que ses prédécesseurs. « Il a utilisé environ 40 % de tokens de sortie en plus par tâche de l’intelligence Index que Sonnet 4.6, et environ trois fois plus de tours d’agent pour nos évaluations sur des tâches habituellement effectuées par des travailleurs de la connaissance AA-Briefcase et GDPval-AA », note Artificial Analysis.
Cela s’explique par les ajustements effectués par Anthropic. Outre un entraînement porté sur les tâches agentiques, la grande différence entre Sonnet 4.6 et 5 tient dans l’activation par défaut de la réflexion adaptative et l’adoption du tokenizer introduit avec Opus 4.7.
La réflexion adaptative permet au LLM de choisir lui-même le niveau d’effort (low, medium, high, xhigh, max) pour accomplir une tâche. « Ce comportement évolue bien en fonction du paramètre “effort” : avec un effort maximal, le nombre de tours est environ six fois supérieur à celui observé avec un faible effort sur GDPval-AA », précise le cabinet.
Le tokenizer est un outil intégré au modèle qui découpe les mots en entrée en tokens à partir d’une bibliothèque de séquences. Ce tokenizer, plus adapté aux tâches longues, « consomme environ 30 % de tokens d’entrée de plus que sur Claude Sonnet 4.6 », prévient Anthropic. Ce qui veut dire que les usages doivent changer la manière de compter le nombre de tokens. Il faut considérer que la fenêtre de contexte de 1 million de tokens est plus rapidement saturée puis qu’à volume équivalent, elle contient moins de texte que Sonnet 4.6. Cela implique une revue des budgets de tokens à la hausse, au risque que le résultat en sortie (128 000 tokens au maximum) soit tronqué.
Un coût à la tâche qui double par rapport à Sonnet 4.6
À l’échelle de l’Intelligence Index d’Artificial Analysis, Sonnet 5 est gourmand, très gourmand. Pour le compléter, avec l’effort réglé au maximum, il génère 300 millions de tokens en sortie, sans compter les tokens de raisonnement. Dans les mêmes conditions, Sonnet 4.6 complète les exercices avec 200 millions de tokens et Opus 4.8 le fait avec 120 millions de tokens.
En conséquence, le coût à la tache augmente. Ce n’est pas pour rien qu’Anthropic propose un rabais jusqu’au 31 août : 2 dollars pour un million de tokens en entrée, 10 dollars en sortie pour le même volume au lieu de 3 dollars et 15 dollars habituellement. L’éditeur n’a pas changé les quotas limites dans Chat (Claude.ai), Cowork, Claude Code et la plateforme Claude. Il les avait déjà relevés en avril dernier pour les modèles Haiku et Sonnet.
Hors promotions, « Claude Sonnet 5 coûte 2,29 dollars par tâche sur l’Intelligence Index, soit environ deux fois plus que Sonnet 4.6 [1,14 dollar par tâche, N.D.L.R] et environ 15 % de plus que Claude Opus 4.8 [1,80 dollar]. Cette augmentation s’explique entièrement par une utilisation accrue des tokens », observe Artificial Analysis. Claude Opus 4.8 est facturé 5 dollars pour un million de tokens en entrée, 25 dollars pour le même volume en sortie.
« Une fois que la tarification standard entrera en vigueur après le 31 août, vos factures de tokens pourraient augmenter considérablement si vous ne redéfinissez pas vos paramètres de référence », anticipe Edison Sanchez, développeur freelance spécialisée dans la pile React. « Réexécutez votre suite d’évaluations ET votre modèle de coûts sur une charge de travail représentative avant de basculer en production », conseille-t-il.
Anthropic suggère une procédure similaire. Aussi performant soit Sonnet 5, ce n’est pas un bon signal envoyé aux entreprises. Si le fournisseur cherche à trouver un compromis entre Sonnet 4.6 et Opus 4.8, l’opération finit par ressembler à un effort d’upselling. À moins qu’il arrive entretemps à faire baisser la consommation de tokens dans une prochaine mise à jour. Reste à voir si les entreprises valident ou infirment les tests d’Artificial Analysis dans le monde réel. Certains sur LinkedIn rapportent déjà qu’ils obtiennent de meilleurs résultats avec Sonnet 4.6 ou avec Opus 4.8 réglé sur l’effort minimum.
« Les équipes qui optimisent actuellement leurs dépenses se concentrent sur le coût total par tâche accomplie, et non sur le prix affiché par token », signale Shawn Chauhan, fondateur et CEO de Sypha, une startup qui développe un IDE agentique. « Tous les autres risquent de recevoir des factures qui vont semer la confusion ».
