Feng Yu - stock.adobe.com
Claude Opus 4.7 : Anthropic engendre un dévoreur de tokens
S’il est plus performant en matière de programmation, Claude Opus 4.7 consomme davantage de tokens qu’à l’accoutumée et exige des instructions plus précises pour produire des résultats pertinents. Anthropic change par ailleurs plusieurs paramètres de ses API dans une tentative d’endiguer la hausse du coût de sa technologie.
Après l’opération marketing rondement menée autour de Claude Mythos, Anthropic lance Opus 4.7, une mise à jour qu’il considère comme « notable » par rapport à Claude Opus 4.6, sans égaler son nouveau champion, présenté comme trop dangereux pour une sortie générale.
Opus 4.7 demeure un grand modèle de langage multimodal (texte et image en entrée, texte en sortie). Il est doté d’une fenêtre de contexte d’un million de tokens (1500 pages A4, police 12, en langue anglaise) et peut générer jusqu’à 128 000 tokens en un seul tour.
Sa base de connaissances fiables est arrêtée au mois de janvier 2026. Le prix affiché est le même qu’Opus 4.6 : 5 dollars pour 1 million de tokens en entrée, 25 dollars pour le même volume en sortie.
Les gains les plus importants concernent la compréhension d’images et la programmation agentique.
Le décodeur d’image couplé au LLM peut désormais prendre des images d’environ 3,75 mégapixels, trois fois plus qu’auparavant. Les gains sont déjà tangibles en matière de compréhension de documents (de « raisonnement visuel ») et plus légers en matière de computer use. Néanmoins, Anthropic estime ouvrir là à des usages plus avancés en la matière.
Un LLM plus précis et plus complexe à configurer
Du côté de la programmation agentique, Anthropic a fait en sorte que son modèle suive mieux les instructions, tandis que les sessions sont persistées pour agrandir sa mémoire. « L’avantage de ce littéralisme est la précision et une réduction des erreurs », affirme l’entreprise dans sa documentation. « Il [Claude Opus 4.7] offre généralement de meilleures performances à travers l’API avec des prompts soigneusement ajustées, une extraction structurée et des pipelines où vous souhaitez un comportement prévisible ».
Et d’inviter ses clients à revoir leurs prompts. S’il est plus précis, Opus 4.7 « ne généralise pas une instruction d’un élément à un autre ».
« Si vous souhaitez que Claude [Opus 4.7] applique une instruction de manière générale, précisez clairement son champ d’application (par exemple : “Applique cette mise en forme à toutes les sections, pas seulement à la première”) », recommande Anthropic.
Il en déduit même une règle d’or : « montrez votre prompt à vos collègues avec un contexte minimal sur la tâche à accomplir. S’ils sont confus, Claude le sera également ».
Cela nécessite d’être précis sur les formats et les contraintes, ainsi que de lister de manière séquentielle les étapes.
Ce n’est qu’un des nombreux changements qu’il faudra effectuer pour utiliser efficacement ce nouveau modèle.
Le principal problème d’Opus 4.7 est sa verbosité. Par exemple, des images trois fois plus grandes réclament… trois fois plus de tokens (4784 contre 1600 tokens auparavant).
Oui, il n’y a plus besoin de payer un supplément pour accéder au million de tokens, mais certaines des améliorations ont été obtenues en modifiant le tokenizer.
Le tokenizer est l’outil qui sert à convertir les phrases, les portions de code, la ponctuation en tokens. Ce découpage plus précis a une influence sur la compréhension du LLM, mais aussi sur le volume de tokens en entrée. Suivant les usages, une même requête en entrée peut demander jusqu’à 35 % de tokens en plus. Ce qui veut dire que le paramètre « Max Tokens » doit être revu à la hausse pour obtenir de meilleurs résultats.
Par ailleurs, Anthropic introduit un nouveau paramètre d’effort consacré au temps de raisonnement (et donc à la puissance de calcul nécessaire pour produire une réponse). En sus des modes low, medium, high et max, xhigh est présenté comme la meilleure option pour les développeurs. Cette fois-ci, les modes de test-time computing génère plus de tokens en sortie, mais le fournisseur ne donne pas d’idée précise du volume supplémentaire généré. D’autant qu’il n’est plus possible d’imposer un budget de tokens consacré au raisonnement. Le mode « adaptatif » est imposé. Et Anthropic recommande de placer le seuil minimal de max_tokens pour les modes xhigh et max à 64 000 tokens.
« Nous pensons que l’effort sera plus important pour ce modèle que pour n’importe quel [modèle] Opus précédent, et nous vous recommandons de l’expérimenter activement lors de la mise à jour », lit-on dans la documentation.
Claude Opus 4.7 a également tendance à produire des réponses plus ou moins longues suivant la complexité d’un problème. Mais comme il est juge du niveau d’expertise nécessaire, il faudra préciser dans le prompt si oui ou non la réponse doit être courte. Il faudra préférer les « exemples positifs ». Opus 4.7 préfère qu’on lui dise produire une réponse courte plutôt que ne pas produire une réponse longue.
Une consommation de tokens de nouveau en hausse
Du fait de cette verbosité exacerbée, Anthropic semble faire des concessions sur le ton de son modèle. Opus 4.7 est plus direct, moins chaleureux qu’Opus 4.6 ou Sonnet 4.5. Sur ce point, la startup rejoint sa concurrente OpenAI. Moins de formules de politesse, c’est moins de tokens à produire. De même, Opus 4.7 fera appel à moins de sous-agents par défaut pour accomplir une boucle de tâches. Un comportement qui peut être modifié par le prompting. De même, le LLM a tendance à moins faire appel à des outils et à s’appuyer davantage sur son raisonnement. Et le fournisseur d’assurer que cela permettrait d’obtenir de meilleurs résultats dans la plupart des cas.
S’il réclame d’être plus précis dans les invites, les paramètres disponibles par API pour influencer la « créativité » du modèle (temperature, top_p, top_k) sont supprimés. En contrepartie, Opus 4.7 fournit davantage de traces pour les tâches agentiques exécutées sur le long terme.
De même, Anthropic introduit en bêta « task_budget » une option pour allouer un volume de tokens à une boucle agentique (raisonnement, appel d’outils, résultats intermédiaires et synthèse finale).
Le cabinet Artificial Analysis, qui a assisté Anthropic dans la production de ses benchmarks n’a pas publié tous ces tests. Claude Opus 4.7 obtient le meilleur score sur le benchmark GDPval-AA consacré à l’évaluation des LLM sur des tâches réelles effectués par des travailleurs humains.
Néanmoins en mode max, le modèle génère 11 millions de tokens de raisonnement et 17 millions en réponse, pour 310 millions en entrée. Claude Opus 4.6 Max avait produit 8,3 millions en réponse et 6,8 millions pour le raisonnement, avec 280 millions en entrée.
En clair, si le nombre de tokens en entrée grimpe de 10,7 % environ, Opus 4.7 nécessite 1,6 fois plus d’unités pour raisonner et 2 fois plus pour répondre. Cela reste moins important que GPT-5.4 xhigh, qui a besoin de 19 millions de tokens pour en traiter 370 millions en entrée. De ce fait, cette évaluation de Claude Opus 4.7 coûte en moyenne 26,6 % plus cher que celle d’Opus 4.6 sans mise en cache. Il semble donc nécessaire d’activer cette option et Anthropic recommande de le faire.
Popularité, « scaling laws » : Anthropic, victime de son succès ?
Un autre élément pourrait perturber les usagers du LLM. Du fait du projet GlassWing et du lancement sous cloche de Claude Mythos, Anthropic introduit de nouveaux garde-fous qui bloquent les requêtes et les appels jugés dangereux. De ce fait, le système peut bloquer des logiques autrefois légitimes lors de l’exécution d’une tâche agentique.
Certains usagers soupçonnent Anthropic d’avoir réduit les ressources de calcul allouées à Claude Opus 4.6 – et donc ses capacités de raisonnement – en anticipation du lancement du nouveau venu. Plusieurs témoignages signalent des problèmes avec ce modèle au cours du mois dernier. D’autres se plaignent qu’Anthropic ajuste les quotas de tokens à la volée, même quand ils paient un abonnement. Il faut dire que ces volumes ont été jusqu’ici généreux pour favoriser l’adoption du service.
De son côté, le fournisseur a justifié ses actions par la « demande grandissante » et des pannes qu’il a subies récemment. Comme OpenAI, Anthropic souffre à la fois de sa popularité croissante et du fait que les lois empiriques dites des « scaling laws » restent vraies. Plus un LLM a accès à de la puissance de calcul à l’entraînement et à l’inférence, plus il est performant. Il faudra tôt ou tard briser ce cercle vicieux.
