Tierney - stock.adobe.com
GPT-5.4 : OpenAI veut relancer la course au « computer use »
OpenAI déploie GPT-5.4 quelques jours après GPT-5.3 Instant. La startup multiplie les ajouts incrémentaux dans ses API et ses outils, en sus de miser sur la manipulation native d’ordinateur et sur une meilleure utilisation des outils, apparemment moins gourmande en tokens. Mais le modèle coûte plus cher et introduit une taxe de 10 % pour le traitement régional des données.
OpenAI l’avait promis. Quelques jours après avoir dévoilé GPT-5.3 Instant dans l’application ChatGPT, le fournisseur de LLM met progressivement à disposition GPT-5.4. Cette accélération du versionnage semble un moyen pour contrer Anthropic. Selon le cabinet de conseil et analyse Constellation Research, la « startup », qui vient de lever 110 milliards de dollars, reproduit les fonctionnalités phares préalablement lancées via la société dirigée par Dario Amodeï. Anthropic a elle-même multiplié les mises à jour en 2025. Google garde, pour le moment, un rythme plus traditionnel, trimestriel.
Accessible depuis ses API et ses applications ChatGPT et Codex, GPT-5.4 demeure un modèle de langage multimodal (texte et image en entrée, texte en sortie), doté de capacités de raisonnement et d’une fenêtre de contexte maximale d’un million de tokens (1,05 million, précisément). Elle est de 272 000 tokens par défaut. Les modèles GPT-5.4 (GPT-5.4 Thinking dans ChatGPT) et GPT-5.4 Pro peuvent générer 128 000 tokens en une seule fois. Et leur limite de connaissances est fixée au 31 août 2025.
GPT-5.4 « sait » nativement utiliser un ordinateur
Comme à son habitude, OpenAI tente d’infuser les capacités de ses modèles spécialisés dans un LLM généraliste. Ainsi, GPT-5.4 égale peu ou prou GPT-5.3 Codex en matière de programmation. Il bat ses prédécesseurs quand il est confronté aux tâches liées à Excel et PowerPoint (ou équivalent). Le fournisseur lance d’ailleurs un « add-in » pour Excel et Google Sheets dans ChatGPT.
GPT-5.4 est encore mieux doté pour exécuter les tâches agentiques. D’après les chiffres partagés par la société, il serait 8,9 % plus performant que GPT-5.2 pour appeler des outils, et 7,1 % plus efficient sur le parangonnage t²-bench Telecom (Tau-2 Bench Telecom) qui reproduit des tâches de « service desk ». OpenAI dit avoir appris à son modèle à sélectionner automatiquement les outils nécessaires à l’accomplissement d’une tâche à travers son API. Une fonctionnalité nommée « Tool Search ».
Le fournisseur LLM met surtout l’accent sur la capacité de son modèle à utiliser « nativement » un ordinateur (« computer use »). Une fonction conçue par Anthropic. Pour mémoire, OpenAI l’avait testée en janvier 2025, avec l’agent expérimental Operator.
Confronté au benchmark OSWorld-Verified, GPT-5.4, dans son mode xhigh (qui affecte le temps de calcul alloué au raisonnement) bat Claude Sonnet 4.6 (75 % contre 72,5 %). Quand le « computer use » est enclenché, GPT-5.4 manipule des commandes de clavier et souris, en sus d’être intégré à l’environnement Playwright pour naviguer sur le Web et écrire du code.
« Son comportement peut être contrôlé via des messages développeurs, ce qui signifie que les concepteurs peuvent l’ajuster en fonction de cas d’usage spécifiques », assure OpenAI. « Ils peuvent même configurer le comportement de sécurité du modèle en fonction de différents niveaux de tolérance au risque en spécifiant des politiques de confirmation personnalisées ».
À cette fin, OpenAI a également entraîné son modèle à mieux comprendre les images haute résolution à l’aide de prompts permettant de paramétrer le niveau de détails sur « original » (jusqu’à 6 000 par 6 000 pixels) et sur « high » (2048 par 2 048 pixels maximum). « Lors des premiers tests avec les usagers de l’API, nous avons observé de nets gains en matière de capacité de localisation, de compréhension des images et de précision des clics lors de l’utilisation du niveau de détail original ou élevé », déclare OpenAI.
Verbosité, prix, performances : Gemini 3.1 Pro Preview garde la main, selon Artificial Analysis
Les porte-parole d’OpenAI affirment également que GPT-5.4 utilise moins de tokens que ses prédécesseurs. « Dans certains cas d’usage de la fonction computer use, la consommation de tokens chute près des deux tiers », dixit un ingénieur d’OpenAI dans une vidéo de présentation de cette fonction. Il faut plutôt comprendre que le fournisseur a travaillé sur la réduction de la création de tokens lorsque son modèle est couplé à un ou plusieurs outils. Par ailleurs, GPT-5.4 générerait 47 % de tokens de moins, quand il a accès à un outil de recherche dans le cadre du benchmark Web MCP Atlas.
L’évaluation menée par le cabinet indépendant Artificial Analysis avec GPT-5.4 xhigh démontre qu’il produit 10 millions de tokens de moins que GPT-5.2 xhigh pour compléter son Intelligence Index. Le LLM n’utilise « que » 120 millions de tokens, là où GPT-5.2 en avait besoin de 130 millions pour effectuer cette suite de parangonnages. En pourcentage, ce gain d’efficience n’est que de 8,33 %. Gemini 3.1 Pro Preview n’a inféré que 57 millions de tokens pour accomplir ces tests. Par rapport à la moyenne des modèles testés (13 millions de tokens), ces LLM demeurent très verbeux.
Selon les résultats affichés par Artificial Analysis, GPT-5.4 xhigh égale peu ou prou Gemini 3.1 Pro Preview. Il n’est toutefois pas numéro 1 du classement. Il perd des points sur les exercices de connaissances générales, de programmation, de raisonnement scientifique, de suivi d’instruction et de compréhension visuelle. OpenAI introduit toutefois un mode dans ChatGPT pour ajuster le comportement et la réponse du modèle à mi-parcours. Une fonctionnalité déjà existante dans l’IDE agentique Codex, désormais disponible sur Windows.
Par ailleurs, OpenAI prétend que ces nouveaux LLM sont plus rapides. Artificial Analysis note que GPT-5.4 xhigh répond 15,7 % plus vite que son GPT-5.2 (72,5 tokens/s contre 61,1 tokens/s). Gemini 3.1 Pro est plus rapide (106 tokens/s). En réalité, OpenAI évoque le « /fast mode » accessible dans Codex et API (priority processing). Là, la vitesse serait 150 % supérieure. OpenAI ne dit pas s’il utilise déjà les puces de Cerebras, avec qui elle a annoncé un partenariat en janvier dernier. Cerebras propulse un mode similaire chez Mistral AI.
Une « taxe » à la résidentialité des données
Outre les gains affichés qu’il faut éprouver dans des conditions d’usage réelles, signalons que GPT-5.4 est plus cher que son prédécesseur. GPT-5.4 coûte 2,50 dollars pour 1 million de tokens en entrée et 15 dollars pour le même volume de tokens en sortie. GPT-5.2 vaut 1,75 dollar pour 1 million de tokens en entrée et 14 dollars en sortie. Le tarif « standard » de GPT-5.4 s’approche ainsi de celui pratiqué par Anthropic pour Claude Sonnet 4.6 (3 dollars/15 dollars). Cette hausse refléterait les « capacités améliorées » et permettrait de compenser la perte de revenus engendrés par la consommation moindre de tokens. « Les tarifs Batch et Flex sont disponibles à la moitié du tarif API standard, tandis que le traitement prioritaire est accessible au double du tarif API standard ».
GPT-5.4 Pro (la version du modèle consacré au raisonnement profond) est affiché au prix de 30 dollars pour 1 million de tokens en entrée, et de 180 dollars en sortie.
Il faut ajouter à cela une forme de taxe à la résidentialité des données. « Les points de terminaison de traitement régional (résidence des données) sont facturés avec une majoration de 10 % pour GPT-5.4 et GPT-5.4 pro », lit-on dans la documentation. En clair, le traitement des données en dehors des États-Unis coûte plus cher.
Pour rappel, Gemini 3.1 Pro Preview est moins cher : 1 million de tokens cumulés en entrée coûtent 2 dollars et 12 dollars en sortie.
Des gains de sûreté à relativiser
Reste le sujet de la sûreté, qui englobe la résistance aux hallucinations, aux biais, à la toxicité et l’épineuse question de la cybersécurité. À nouveau, OpenAI assure que par rapport à GPT-5.2, « les affirmations individuelles de GPT-5.4 ont 33 % moins de chances d’être fausses et ses réponses complètes ont 18 % moins de chances de contenir des erreurs ». Il faudra attendre les résultats d’évaluations indépendantes pour en avoir leur cœur net.
L’examen Phare, mené par Giskard, tend à démontrer qu’en moyenne certains LLM de dernière génération – Claude 4.6 Opus, Sonnet, GPT-5.2, Gemini 3,1 Preview – font moins bien que leurs aînés en matière de sécurité (en combinant leur score de résistance aux hallucinations, de toxicité, de biais, et de cybersécurité). Ils peuvent égaler ou surpasser très légèrement les résultats des modèles précédents dans des catégories spécifiques. Selon la startup française, cela dénoterait une stagnation des performances des fournisseurs en la matière. C’est ce que laisse apparaître la carte système de GPT-5.4.
OpenAI introduit toutefois des benchmarks ouverts pour superviser le comportement de la chaîne de pensées des modèles de raisonnement, ainsi que de nouveaux outils pour contrer les usages malveillants, de plus en plus tangibles. Sa pile de cybersécurité contient désormais « des systèmes de surveillance, des contrôles d’accès (plus) fiables et un blocage asynchrone pour les demandes à haut risque des clients sur les surfaces Zero Data Retention (ZDR) ».
