Worawut - stock.adobe.com

Claude Opus 4.5 : Anthropic répond (encore) à OpenAI et à Google

Plus performant, moins cher qu’à l’accoutumée, axé sur le développement, l’IA agentique et les tâches en entreprise… sur le papier, Claude Opus 4.5 a tout pour lui. Comme chez ses concurrents, les optimisations demeurent incrémentales, jugent les analystes.

C’est la saison des modèles de langage. Après OpenAI et Google, c’est au tour d’Anthropic de dévoiler son LLM de référence, Claude Opus 4.5.

Ce modèle « hybride » (qui inclut une option de raisonnement) a été entraîné sur un mix de données disponibles publiquement et des données propriétaires filtrées. Ses connaissances sont arrêtées au mois de mars 2025, mais des informations extraites au mois d’août ont également été utilisées lors de l’entraînement.

Sans surprise, après une phase de préentraînement, diverses techniques de post-entraînement, de l’apprentissage renforcé avec feed-back humain et des données synthétiques ont été appliquées pour obtenir Opus 4.5. Il dispose toujours d’une fenêtre de contexte 200 000 tokens (bientôt extensible à 1 million de tokens) et peut générer jusqu’à 64 000 tokens en une seule fois. Comme à son habitude, Anthropic ne dévoile pas sa recette.

Pour rappel, le fournisseur de LLM avait présenté Claude Sonnet 4.5 à la fin du mois de septembre.

Disponible depuis Google Cloud (Vertex AI), AWS (Amazon Bedrock), Microsoft Azure (AI Foundry, une première) et la plateforme d’Anthropic (en sus de Claude Code et Claude.ai), Claude Opus 4.5 est accessible au prix de 5 dollars pour un million de tokens en entrée, et 25 dollars pour 1 million de tokens en sortie.

Un Opus moins cher qu’à l’accoutumée

Pour rappel, Opus 3, 4, Opus 4.1 sont facturés 15 dollars pour un million de tokens traités en entrée et 75 dollars pour le même volume en sortie. Anthropic a donc baissé ses prix.

« Les modèles Opus ont toujours été les plus avancés, mais ont été proposés à un prix prohibitif par le passé », considère Jeff Wang, CEO de Windsurf dans un billet de blog d’Anthropic. « Claude Opus 4.5 est désormais proposé à un tarif tel qu’il peut devenir votre modèle de référence pour la plupart des tâches […] ».

Il demeure un modèle plus cher que ceux des concurrents OpenAI et Google, selon le cabinet indépendant Artificial Analysis.

« Le modèle [Opus 4.5] coûte toujours significativement plus cher que d'autres modèles dont Gemini 3 Pro (élevé), GPT-5.1 (élevé), et Claude Sonnet 4.5 (thinking). Il est seulement moins cher que Grok 4 (Reasoning) », écrivent les analystes.

Opus 4.5 dépasserait toutefois GPT-5.1 Codex Max, GPT-5 et Gemini 3 Pro sur le parangonnage SWE-bench, consacré à l’ingénierie logicielle. Une précision en hausse 3,7 % par rapport à Sonnet 4.5.

« Verbosité » réduite : des résultats contredits par Artificial Analysis

Anthropic joue un autre atout : la possibilité de moduler le temps de raisonnement depuis son API.

Elle permet d’activer un paramètre du LLM qui peut être appliqué au mode de raisonnement, à l’appel de fonction et tous les autres modes de génération de tokens.

« Nos tests en accès anticipé démontrent [qu’Opus 4.5] s’impose sur nos benchmarks internes, tout en réduisant le volume de tokens générés par deux », affirme Mario Rodriguez, chief product officer chez GitHub. « Il est particulièrement adapté aux tâches de migration ou de refactoring de code », assure-t-il dans le même billet de blog.

Précisément, Anthropic décline trois niveaux d’effort (bas, moyen, haut). Au niveau moyen, Opus 4.5 serait capable d’égaler Sonnet 4.5 tout en produisant 76 % moins de tokens. S’il est configuré sur le niveau « haut », Opus 4.5 dépasserait son aîné de 4,3 de point de pourcentage, tout en produisant 48 % de tokens en moins.

Ce n’est pas ce que constate Artificial Analysis.

« Anthropic a considérablement réduit le prix par token pour Claude Opus 4.5. Cependant, par rapport au modèle Claude Opus 4.1 précédent, nous avons utilisé 60% de tokens en plus pour réaliser nos évaluations de l'indice d'intelligence (48 millions de tokens contre 30 millions) », affirment les analystes. « Cela se traduit par une réduction substantielle du coût d'exécution de nos évaluations de l'Intelligent Index, qui passe de 3100 à 1500 dollars, mais qui n'est pas aussi importante que le laisse supposer la baisse de prix annoncée ».

Artificial Analysis ne précise pas s’il a enclenché l’option de niveau d’effort.

Il serait toutefois bien moins « verbeux » que ses adversaires Gemini 3 Pro (92 millions de tokens), GPT-5.1 (81 millions) et Grok 4 (120 millions). Claude Opus 4.5 serait toutefois deux fois plus lent que Gemini 3 Pro (63 tokens per seconde vs 128 tokens par seconde).

Le fournisseur de LLM précise que le contrôle de l’effort peut être couplé avec la « compression » du contexte (une technique proposée au moment de la sortie de Sonnet 4.5) et l’usage avancé des outils.

Dans les autres tâches, Claude Opus 4.5 présenterait des performances 3 à 6 % supérieures à celles de Gemini 3 Pro. Il gagnerait ainsi en précision au moment de planifier et d’exécuter des tâches spécifiques à un système agentique.

Artificial Analysis le place deuxième de son classement, derrière Gemini 3 Pro et devant GPT-5.1. Le cabinet lui donne la première place en programmation et en gestion de tâches agentiques. Il faut dire que Google a plutôt misé sur le traitement des images et l’IA agentique. Anthropic reste concentré sur les tâches d’ingénierie logicielle (dont la génération de code) et… l’IA agentique. Néanmoins, Opus 4.5 aurait également gagné des « points de QI » dans la compréhension des images, l’analyse financière et la création de feuilles de calcul.

Contrairement à ses adversaires, Anthropic n’aurait pas sacrifié la résistance aux comportements dangereux sur l’autel de la performance ou de l’alignement sur les préférences humaines. Anthropic prétend que son modèle contrecarre bien mieux les prompts d’injection que Gemini 3 Pro et GPT-5, tandis qu’il bénéficierait de gains minimes dans les autres catégories.

Des ajouts incrémentaux à tester en conditions réelles

Cet étalage de moyens et de tests est bien évidemment un élément important de la communication des fournisseurs de LLM.

Auprès d’AI Business, Lian Jye Su, analyste en chef chez Omdia, une division d’Informa TechTarget [également propriétaire du MagiT], voit là une « mise à jour incrémentale ». Les techniques d’entraînement n’ont pas réellement évolué depuis deux ans. Les fournisseurs cherchent désormais à se distinguer en pointant chacun vers une direction : des conversations plus fluides, la génération de code, la compréhension des images, etc.

Ce ne serait pas un mauvais point, selon lui. L’adoption réelle dans les entreprises est encore faible, note-t-il. Ces petits pas permettraient de rassurer les grands groupes sur la viabilité de la technologie. Un signe de maturité. Cela ne veut pas dire qu’il faut abandonner les LLM déjà adoptés (s’ils l’ont été), selon Arun Chandrasekaran, analyste chez Gartner. Les entreprises doivent, elles aussi, mettre à l’épreuve les dires des fournisseurs.

Reste maintenant à tester la chose dans des conditions réelles, avec le mode humain « esprit critique » enclenché.

Pour approfondir sur IA appliquée, GenAI, IA infusée