Worawut - stock.adobe.com
Claude Sonnet 4.6 : l’écart entre les modèles d’Anthropic se resserre
Le LLM Claude Sonnet 4.6 d’Anthropic se rapproche des performances de son fleuron Opus 4.6 au prix d’un modèle milieu de gamme. S’il se démarque pour les tâches de programmation et d’IA agentique, il consomme trop de tokens pour remplacer Opus 4.6 dans les tâches de raisonnements, selon Artificial Analysis.
Douze jours après Claude Opus, Anthropic a « lâché dans la nature » Claude Sonnet 4.6.
Le modèle de langage de « milieu de gamme » dispose du même accès en bêta à une fenêtre de contexte de 1 million de tokens. Par défaut, elle est de 200 000 tokens. Il peut générer jusqu’à 128 000 tokens, contre 64 000 pour Sonnet 4.5. Selon Anthropic, la connaissance du Web de Sonnet 4.6 s’arrête au mois de mai 2025.
Les améliorations sont similaires à son grand frère Opus 4.6 : Anthropic a travaillé sur la programmation, le « computer use » (sur lequel le fournisseur aurait mis l’accent lors de l’entraînement), la planification agentique, l’exécution à long terme, certaines tâches métier et le design.
Là encore, les fonctions de raisonnement adaptatif, de recherche Web, d’utilisation d’outils, et la compression du contexte passé sont disponibles à travers les API badgées Claude Sonnet 4.6.
Meilleur qu’Opus 4.5, très proche d’Opus 4.6
Toutefois, l’écart qui persistait auparavant entre le modèle de milieu et de haut de gamme se réduit.
« Claude Sonnet 4.6 égale les performances d’Opus 4.6 sur benchmark OfficeQA qui mesure la capacité d’un modèle à lire des documents (comme des diagrammes, des PDF, des tables), y extraire les bons faits et les interpréter », explique Hanling Tang, directeur technique des réseaux neuronaux chez Databricks, dans le billet de blog diffusé par Anthropic
Sur l’intelligence Index d’Artificial Analysis, Claude Sonnet 4.6 se place derrière son grand frère et devant GPT-5.2 Codex. Claude Opus 4.6 vient tout juste de perdre une place au classement face à Gemini 3.1 Pro de Google.
Au 19 février, Sonnet 4.6 est donc le troisième meilleur modèle disponible selon le cabinet indépendant. Toutefois, il est le premier sur les tâches agentiques, devant Opus 4.6 et le nouveau fleuron de Google. Selon les tests d’Anthropic, Sonnet 4.6 serait encore meilleur pour utiliser les outils des serveurs MCP et pour certaines tâches de programmation.
« Les utilisateurs ont même préféré Sonnet 4.6 à Opus 4.5, notre modèle frontière de novembre, dans 59 % des cas », affirme Anthropic. « Ils ont évalué Sonnet 4.6 comme étant significativement moins enclin à la surenchère et à la “paresse”, et significativement meilleur dans le suivi des instructions », précise le fournisseur. « Ils ont signalé moins de fausses déclarations de réussite, moins d’hallucinations et un suivi plus cohérent des tâches à plusieurs étapes ».
Plus adapté à l’IA agentique et à la programmation qu’aux tâches de raisonnement
Le fournisseur affiche le même prix que Claude Sonnet 4.5. Par défaut, il facture 3 dollars pour 1 million de tokens en entrée, 15 dollars pour le même volume en sortie. Un rabais de 90 % est appliqué à la mise en cache et de 50 % pour les traitements en lot.
Selon Artificial Analysis, Sonnet 4.6 consomme trois fois plus de tokens que Sonnet 4.5 pour les tâches de raisonnement, 27 % de plus que Claude Opus 4.6, qui était déjà considéré comme très bavard. Du fait de la différence de prix de seulement 40 % entre les deux modèles de la collection, le cabinet d’analyse considère que « l’ensemble des cas d’usage pour lesquels Sonnet a un intérêt par rapport à Opus est plus restreint que jamais ».
D’autant que Sonnet 4.6 n’est pas le plus rapide suivant la configuration (niveau d’effort, raisonnement adaptatif enclenché ou non, compression du contexte).
Toutefois, les cas d’usage réels pourraient montrer les limites des tests menés par le cabinet d’analyse. Là où Sonnet 4.6 excelle, l’IA agentique donc, il reste moins cher à utiliser qu’Opus 4.6. C’est en tout cas le constat des bêta-testeurs. Tout comme pour la génération de code.
« Claude Sonnet 4.6 se rapproche d’Opus dans la détection de bugs, ce qui nous permet d’exécuter plus de revues en parallèle, de traiter une plus grande variété de bugs et sans augmenter les coûts », prétend Scott Wu, CEO de la startup Cognition.
« Dans l’ensemble, Sonnet 4.6 représente une nette amélioration par rapport à 4.5, utilise moins de tokens et se rapproche des performances d’Opus dans nos tests », assure de son côté Wade Foster, cofondateur et CEO de Zapier.
Toutefois, Opus 4.6 serait plus à l’aide pour gérer de grosses portions de code, beaucoup d’outils à utiliser et de multiples sources, nuance-t-il. Sonnet 4.6 serait idéal pour l’automatisation de flux de travail, comme la gestion d’un calendrier de rendez-vous lié à un CRM.
Et Chris Carella, product leader chez Deloitte de remarquer sur LinkedIn que le défi, même pour les développeurs d’Anthropic qu’il a rencontré le jour du lancement de Sonnet 4.6, est de changer de LLM de plus en plus rapidement. Un phénomène également observé par Martin Woodward, vice-président des relations développeurs chez GitHub.
Claude Sonnet 4.6 est disponible depuis les API d’Anthropic, ses applications Claude.ai, Claude Code, Cowork, ainsi que chez les différents fournisseurs cloud (AWS, GCP, Azure) et depuis GitHub Copilot et d’autres assistants de programmation.
