Ascannio - stock.adobe.com
GPT-5.5 : les promesses d’OpenAI contredites par les premiers retours
Moins gourmand, mais deux fois plus cher sur le papier, GPT-5.5 réclamerait davantage de soins pour écrire les instructions et un contexte solide, d’après les premiers tests. Or, OpenAI affirme le contraire.
Après avoir limité l’accès privé à près de 200 partenaires, OpenAI a annoncé la disponibilité générale de GPT-5.5 dans ChatGPT et Codex.
Entraîné et inféré à l’aide des systèmes NVIDIA GB300 et GB200 NVL72, il est accessible sous l’appellation GPT-5.5 Thinking dans les abonnements Plus, Pro, Business et Enteprise de ChatGPT et Codex. La variante Pro de GPT-5.5 est réservée aux souscriptions Pro, Business et Enterprise.
La disponibilité de l’API suivra prochainement. Le modèle doté d’une fenêtre de contexte maximale d’un million de tokens (922 000 exactement) est livré avec une limite à 400 000 tokens dans l’IDE agentique Codex.
OpenAI présente GPT-5.5 comme une mise à jour incrémentale « importante ». Outre des garde-fous renforcés, la société dirigée par Sam Altman reprend la main face à Anthropic dans les classements de LLM. Ouf.
Selon Artificial Analysis, le LLM multimodal dépasse de trois points son concurrent Opus 4.7 quand il est confronté à son intelligence Index. Il en prend la tête avec 60 points sur 100, devant Claude Opus 4.7 Max, Gemini 3.1 Pro Preview et GPT-5.4 xhigh. Ces trois-là affichent le même score moyen : 57 sur 100.
OpenAI affirme avoir fait en sorte de réduire la quantité de tokens nécessaire pour accomplir la même tâche tout en conservant une vitesse proche de GPT-5.4. Artificial analysis n’a pas testé la rapidité du modèle.
La moyenne de tokens consommés pour accomplir les tâches de l’index atteint 75 millions, au lieu de 120 millions pour GPT-5.4. OpenAI ne bat donc pas Google et ses 58 millions de tokens de moyenne avec Gemini 3.1 Pro. Concernant l’exercice GDPval AA, quand Opus 4.7 Max a besoin de 340 millions de tokens, GPT-5.5 xhigh le passe en 190 millions.
Un modèle moins consommateur qui double de prix
Toutefois, les usagers ne profiteront pas pleinement de cette réduction. OpenAI a tout simplement doublé le prix de GPT-5.5 par rapport à GPT-5.4.
Il faut débourser 5 dollars pour 1 million de tokens en entrée, puis 30 dollars en sortie pour le même volume. Ainsi, quand Artificial Analysis observe une baisse de 40 % du volume de tokens généré pour accomplir ses tests, il en résulte une hausse effective d’environ 20 % du prix du jeu d’évaluation.
Dans un même temps, les améliorations de GPT-5.5 permettraient d’avoir des résultats équivalents à Opus 4.7 en effort Max… en enclenchant le curseur d’effort moyen. L’exercice coûterait surtout le quart du prix : 1200 dollars avec GPT-5.5 contre 4800 dollars avec Opus 4.7 Max. Gemini 3 Pro Preview obtiennent toutefois un score similaire sur l’index en ne coûtant « que » 900 dollars.
Bien que très puissant sur le papier, Opus 4.7 semble surtout un camouflet pour Anthropic, du fait de cette consommation de tokens.
Le cabinet ne précise pas le coût du même parangonnage avec la variante Pro de GPT-5.5 : le million de tokens en entrée revient à 30 dollars, tandis que le même volume est chiffré à 180 dollars en sortie.
Au-delà d’une hausse de coût pour compenser la baisse de volume de tokens généré et éponger les dépenses liées à l’entraînement, OpenAI vante les capacités du modèle. Non seulement la société poursuit ses efforts sur les tâches liées aux sciences dures, mais prendrait une direction opposée d’Anthropic.
Quand Opus 4.7 a besoin d’instructions précises, OpenAI dit faire le pari que son modèle peut s’en sortir avec des prompts désordonnés ou manquant de contextes. GPT-5.5 aurait été entraîné à mieux comprendre l’intention de l’utilisateur.
Contrairement aux dires d’OpenAI, GPT-5.5 suivrait les instructions trop à la lettre
« Les modèles précédents faisaient déjà bien cela, mais 5,5 va plus loin dans la compréhension de ce que vous essayez d’accomplir, surtout au travail où les choses ne sont pas parfaitement documentées », affirme Denise Holland Dresser, Chief Revenue Officer chez OpenAI, dans un post LinkedIn.
Une capacité qui serait appréciée par les ingénieurs et les data analysts chez OpenAI.
Toutefois, les retours des primo-adoptants nuancent cette affirmation, voire la contredisent. Au contraire, les tâches de développement réclameraient davantage de rigueur dans la gestion des instructions. « Le modèle [GPT-5.5] s’est révélé plus performant lorsqu’il pouvait suivre un cycle visible de modification, d’inspection et de correction, plutôt que d’essayer de tout résoudre d’un seul coup », écrivent les ingénieurs de CodeRabbit, l’éditeur d’un outil de revue Pull Requests propulsé à l’IA.
« Les tests effectués par notre équipe ont révélé que le modèle suivait les instructions de manière trop littérale, en particulier lorsque la consigne était mal structurée, manquait de détails ou reposait sur des concepts peu solides », poursuivent-ils. « Dans ces cas-là, le modèle ne corrigeait souvent pas la consigne de lui-même. Il avait tendance à exécuter la demande telle quelle, alors qu’un collaborateur plus expérimenté aurait pu marquer une pause, demander des précisions ou remettre en question le postulat de départ ».
De son côté, Harvey.ai, l’éditeur d’une plateforme d’IA pour les professions juridiques remarque que les sorties du LLM sont plus structurées, tandis qu’il décèle plus rapidement les sources à partir des titres et des citations. Toutefois, « certaines réponses étaient plus détaillées que ne l’exigeait la consigne, notamment pour les questions simples ». Comme CodeRabbit, Harvey.ai met en avant cette tendance à respecter les instructions à la lettre. Fieldguide partage une remarque similaire, mais considère quant à elle que c’est un comportement souhaitable.
Puisque les deux éditeurs ont participé à la préversion de recherche, il se peut que la version en production du LLM d’OpenAI soit moins sujette à ce phénomène.
Finalement, c’est la manière de prompter des usagers et la tâche qu’il tente d’accomplir qui déterminera les performances du modèle.
GPT-5.5 participe à l'amélioration de son architecture d'inférence
GPT-5.5 a été utilisé en conjonction avec Codex pour analyser des millions de logs des systèmes d’inférence d’OpenAI pour écrire un algorithme heuristique d’optimisation des fragments de requêtes (chunks) et leur répartition, ce qui aurait permis de générer des tokens 20 % plus rapidement.
