Anthony Hall - stock.adobe.com

GPT-5.3 Codex vs Claude Opus 4.6 : Anthropic et OpenAI jouent au jeu des 7 différences

Les deux fournisseurs de LLM se rendent coup pour coup en matière d’IA agentique. Les lancements concomitants de Claude Opus 4.6 et GPT-5.3 Codex en sont la preuve. Et à la clé, une plus grande confusion pour les décideurs IT.

Anthropic et OpenAI retournent à leur bataille trimestrielle. Le 5 février, à 20 minutes d’intervalle, le premier a dévoilé Claude Opus 4.6 et le second, GPT-5.3-Codex. Si Claude demeure généraliste, les deux grands modèles de langage sont essentiellement dédiés à la programmation et à l’IA agentique.

Ils peuvent exécuter des tâches pendant plus longtemps « sans perdre le contexte », assurent les deux fournisseurs. Le contenu, la construction, les arguments des deux acteurs sont étrangement similaires. En même temps que les modèles convergent, les discours aussi.

Les modèles et les discours convergent

En ce sens, la caution scientifique des benchmarks est de plus en plus relayée au second plan. C’est un élément de fierté, mais OpenAI et Anthropic mentionnent davantage l’ajout d’outils au sein ou autour de leurs API. Rappelons que la saturation des évaluations est telle, et le degré de transparence si faible, qu’il ne faut surtout pas les prendre pour argent comptant. Quant aux cartes système, bien que de plus en plus longues (212 pages pour Opus 4.6 !), elles semblent de moins en moins le reflet des évolutions des méthodes d’entraînement.

À l’instar des héros de bande dessinée sans pouvoir magique, la ceinture d’outils du LLM doit faire la différence.

Ainsi, Anthropic ajoute une capacité de gestion dynamique de « l’effort ». Cet élément décrit tout simplement le temps de raisonnement nécessaire à l’exécution d’une tâche. Opus 4.6 peut déterminer par lui-même lequel des quatre paliers (bas, moyen, élevé et max) suffit pour accomplir la mission confiée par l’utilisateur. De même, l’automatisation de la compression du contexte entre en bêta, tout comme la prise en charge d’un million de tokens en entrée. Le modèle, basé sur la même architecture que ses prédécesseurs, dispose par défaut d’une fenêtre de contexte de 200 000 tokens. Claude Opus 4.6 peut générer des contenus d’une longueur maximale de 128 000 tokens.

OpenAI ne précise pas ces valeurs. À titre de comparaison, GPT-5.2 Codex dispose d’une fenêtre de contexte de 400 000 tokens en entrée et de 128 000 tokens en sortie.

Anthropic a aussi présenté agent teams, un moyen de coordonner plusieurs instances de Claude Code associées à différentes sessions et de créer des traitements parallélisés. Cela revient à superviser plusieurs équipes d’agents IA. De son côté, OpenAI a présenté sa plateforme agentique Frontier.

De manière temporaire, GPT-5.3 Codex – entraîné et inféré sur des racks Nvidia GB200 NVL72 – est exclusivement disponible depuis Codex App sur Mac. L’application prend en charge les outils CLI et SDK de la startup tout comme les IDE du marché. OpenAI assure que son modèle ne consomme pas autant de tokens que ses prédécesseurs au moment de raisonner, ce qui permettrait d’accélérer la vitesse de traitement jusqu’à 25 %. C’était un des gros problèmes de GPT-5.2.

Peu transparent d’un côté, cher de l’autre

GPT-5.3 Codex n’est pas encore disponible par API. Il faut se tourner vers les abonnements ChatGPT pour le retrouver. Et le modèle de consommation semble particulièrement peu transparent. Il faut comprendre que les abonnements contiennent un nombre de messages suivant l’usage du modèle de programmation. Au-delà, il convient de se procurer des crédits supplémentaires. Là encore, leur consommation varie suivant la requête. Un acteur comme Adobe a adopté un modèle similaire pour la génération d’images dans Creative Cloud Pro.

Comme Anthropic qui intègre ses modèles avec Excel et PowerPoint, OpenAI liste les tâches que les entreprises peuvent accomplir avec ses modèles. Sans trop de surprise, la société dirigée par Sam Altman cible les mêmes usages que son compétiteur : création de slides financiers, de tutoriels, d’analyses, de sourcing, de préparations, de collections, de modes, etc.

Il n’y a rien de véritablement nouveau dans la galerie d’outils d’Anthropic (en tout cas pas depuis le mois dernier). Pour autant, Claude Opus 4.6 est déjà disponible par API, au même prix que son prédécesseur : 5 dollars pour un million de tokens en entrée, 25 dollars pour le même volume en sortie. Une « surtaxe » s’applique quand le prompt en entrée contient plus de 200 000 tokens.

Selon Artificial Analysis, si le prix ne change pas par rapport à Opus 4.5, la version 4.6 consommerait 30 à 60 % de tokens supplémentaires. Cela en ferait « le modèle le plus coûteux » que le cabinet a testé sur le parangonnage GDPval-AA à ce jour.

Cybersécurité : un cadeau pour les défenseurs et les attaquants

Bref, aux utilisateurs de déterminer lequel des deux modèles est le meilleur pour leurs tâches spécifiques. En tout cas, il présente un comportement problématique similaire. Anthropic et OpenAI rapportent que leurs modèles n’ont jamais été aussi bons pour détecter des vulnérabilités logicielles… et pour les exploiter. Les deux fournisseurs disent ajouter des garde-fous supplémentaires pour éviter de se faire déborder par les acteurs malveillants.

« Étant donné que le modèle présente des capacités de cybersécurité accrues, nous avons mis au point six nouvelles sondes de cybersécurité – des méthodes de détection des réponses nuisibles –, pour nous aider à suivre les différentes formes de détournement potentiel », précise Anthropic.

« Nos mesures d’atténuation comprennent la formation à la sécurité, la surveillance automatisée, l’accès sécurisé à des capacités avancées et la mise en place de pipelines de contrôle comprenant des renseignements sur les menaces », indique pour sa part OpenAI.

Reste à voir si les acteurs comme Amazon et Google continueront à jouer à ce jeu ou s’ils préfèrent composer leur propre partition.

Pour approfondir sur IA appliquée, GenAI, IA infusée