
Rokas - stock.adobe.com
GPT-5 : OpenAI ne convainc pas totalement
Impressionnant de loin, les modèles tant attendus d’OpenAI ne représentent pas le saut générationnel pressenti. Les variantes de GPT-5 seraient toutefois meilleures pour gérer des tâches de programmation, et comprendre des documents complexes. Attention aux coûts cachés, soulignent déjà les spécialistes du domaine.
Après avoir présenté cette semaine la collection « open weight » GPT-OSS, voilà qu’OpenAI a lancé GPT-5, lors d’une conférence virtuelle dont le contenu principal avait fuité « accidentellement » quelques heures avant sa diffusion.
GPT-5 demeure une collection de grands modèles de langage de raisonnement multimodal (textes et images en entrée, texte en sortie). Mais c’est aussi un « système ». Il dispose d’un routeur qui sélectionne « en temps réel » une variante du modèle « en fonction de la conversation, des outils requis » et la nature implicite ou explicite de l’intention.
La collection est commercialement déclinée en GPT-5, GPT-5 mini, GPT-5 nano et GPT-5 Chat (dans ChatGPT). Tous disposent d’une fenêtre de contexte de 400 000 tokens et peuvent générer jusqu’à 128 000 tokens en une fois. Ils sont accessibles par API. Les LLM sont inclus progressivement dans les éditions Plus, Pro, Team, Free, Enterprise et Edu de ChatGPT.
GPT-5 : sous le capot, un système multi-LLM
La collection est divisée en deux types de variantes. Il y a d’abord deux modèles « rapides » qui doivent répondre à la plupart des questions : gpt-5-main et gpt-5-main-mini. Puis il y a quatre variantes de modèles de raisonnement suivant la complexité et le temps nécessaire afin de produire une réponse nuancée. Ils sont intitulés gpt-5-thinking, gpt-5-thinking-mini, gpt-5-thinking-nano et gpt-5-thinking-pro.
Le routeur, lui, est un modèle « continuellement entraîné sur des signaux réels », lit-on dans la carte qui accompagne le lancement du système. Les changements de modèle, les préférences des utilisateurs pour une réponse ou une autre et l’évolution de l’exactitude à travers le temps sont les attributs exploités pour l’entraîner et décider de la variante GPT-5 à convoquer.
Sous l’appellation GPT-5 se cache donc ce qui s’apparente à un système multi-LLM. Un dispositif dans lequel la puissance de calcul nécessaire pour répondre à une question peut être perçue comme un outil parmi d’autres. Un mélange de modèles eux-mêmes un mélange d’experts, pourrait-on écrire.
Ce n’était pas l’intention première d’OpenAI. Cela lui complique la tâche, techniquement et commercialement.
« Une fois les limites d’utilisation atteintes, une version mini de chaque modèle traite les requêtes restantes », explique le fournisseur dans la carte de la collection. « Dans un avenir proche, nous prévoyons d’intégrer ces capacités dans un modèle unique ».
Dans sa présentation, OpenAI s’est davantage concentré sur les capacités de GPT-5 en matière de programmation, d’analyse financière, énergétique, d’éducation et surtout de santé. Ses secteurs de prédilection.
Et, pour le prouver, Sam Altman, CEO et cofondateur d’OpenAI, a fait monter sur scène une femme atteinte de plusieurs cancers et son mari. La quarantenaire explique ô combien les réponses des modèles GPT-4o à travers ChatGPT ont été précieuses pour comprendre les diagnostics des médecins et prendre des décisions (vitales) plus éclairées. Elle a pu tester GPT-5 qui, bien évidemment, lui a fourni des réponses plus détaillées, plus rapidement.
LeMagIT ne s’attarde pas habituellement sur ces dispositifs de communication, aussi tire-larmes, voyeurs et maladroits soient-ils. Mais celui-ci est révélateur de la volonté d’OpenAI. Comme il a été l’un des colporteurs du Vibe Coding (GPT-5 ferait d’ailleurs entrer ses utilisateurs dans l’ère du « Software on Demand », lâche Sam Altman), le fournisseur souhaite que ces utilisateurs « vibe » la santé, l’éducation, l’énergie et la finance.
GPT-5 : « une équipe d’experts dans votre poche », prétend OpenAI
OpenAI a confiance en sa technologie. GPT-5 représente « une équipe d’experts dans votre poche », vante Sam Altman, un système d’IA générative qui, enfin, aurait atteint le niveau de connaissances et les capacités d’analyse d’un professeur ou d’un docteur.
La banque espagnole BBVA a pu tester GPT-5, d’après Greg Brockman, président d’OpenAI. « Selon leurs tests, l’analyse financière de GPT-5 surpasse tous les modèles en matière de performances et de vitesse », clame-t-il. L’assureur de santé américain Oscar l’aurait utilisé pour comparer des politiques médicales complexes avec le diagnostic des patients. L’expert des biotechnologies médicales AMGEN « était l’un des premiers testeurs de GPT-5 », affirme Olivier Godement, directeur de la plateforme produit chez OpenAI. « Les scientifiques d’AMGEN l’ont essayé au cours de la conception d’un médicament. Ils ont considéré que GPT-5 est particulièrement bon pour le raisonnement profond sur des données complexes ».
Box, l’éditeur d’une solution GED, est l’un des primo-accédants à GPT-5. Il a pu comparer les résultats avec GPT-4.1. « Pour tout ce qui comporte beaucoup de calculs et d’informations complexes, comme les documents financiers contractuels, nous constatons une amélioration notable », confirme Aaron Levie, PDG de Box, lors d’une interview avec SearchEntepriseAI, une publication sœur du MagIT.
Pas de preuves suffisantes des performances avancées
Cela voudrait-il dire qu’enfin OpenAI abandonne ses benchmarks génériques ? Non.
« Les évaluations ne vous disent pas tout sur un modèle, mais elles peuvent souligner son “intelligence” », affirme Max Schwarzer, membre de l’équipe technique et chercheur chez OpenAI. « GPT-5 obtient des résultats exceptionnels dans toute une série d’évaluations académiques sur différentes matières. Il surpasse nos modèles précédents et les autres modèles disponibles sur le marché ».
Sauf qu’OpenAI n’a présenté aucun parangonnage contre des modèles tiers. Les résultats visibles sur son site Web sont difficiles à lire. Des variantes de GPT-5 sont comparées avec o3 et GPT-4o, avec ou sans outils, avec le raisonnement activé ou non…, mais sans toutefois confronter les modèles dans la même configuration et sans évoquer le temps de « réflexion » nécessaire. LeMagIT évite d’exposer ces résultats tant ils sont réputés comme manipulés par les fournisseurs.
Sur LinkedIn, Nikita Rokotyan, fondateur d’Interacta et ingénieur en visualisation de données, documente d’énormes biais visuels dans les infographies partagées par OpenAI. Un point soulevé par de nombreux membres du réseau.
Greg Brockman le répète. « Nos benchmarks affichent des nombres impressionnants, mais nous commençons à les saturer. Quand vous atteignez des scores comme 98-99 % sur certains parangonnages, cela veut dire que vous avez besoin de quelque chose d’autre pour saisir ô combien le modèle est bon », signale-t-il.
« C’est pourquoi nous ne nous sommes pas concentrés seulement sur ces nombres, mais sur des applications du monde réel », poursuit-il.
Développement : OpenAI se bat contre Anthropic et Google
Ces exemples du monde réel sont en réalité des démonstrations de programmation, notamment à travers Cursor : corrections de bugs, mini jeu, développement front-end (tableau de bord, visualisation 3D), etc.
Néanmoins, « il semble qu’une grande partie du préentraînement et du post-entraînement ait été consacrée au code », déclare Arun Chandrasekaran, analyste chez Gartner, auprès de SearchEntepriseAI. « Les tâches liées à la programmation, en particulier dans une perspective B2B, constituent aujourd’hui l’un des cas d’usage de l’IA générative qui connaît la croissance la plus rapide ».
Un point confirmé lors de la conférence. « Nous avons commencé à discuter avec des utilisateurs et des clients concernant les performances de nos modèles dans les outils de code les plus populaires tels que Cursor », relate Brian Fioca, responsable IA appliquée aux startups dans l’équipe Go to Market, chez OpenAI. « Nous avons identifié des frustrations, les aspérités, et nous les avons résumées en quatre traits : l’autonomie, la collaboration, la gestion du contexte et des tests ».
Des éléments qui ont été utilisés pour modifier le comportement des modèles afin qu’il agisse comme des « membres collaboratifs d’une équipe de développement ».
« Nous avons également entraîné GPT-5 pour qu’il soit plus “agentique” », ajoute Adi Ganesh, membre de l’équipe technique et chercheur chez OpenAI. « Pour certaines tâches complexes ou ambitieuses, il enclenchera de longues chaînes de pensée et des appels à des outils ».
Cette spécialisation est essentielle pour les entreprises, selon Bradley Shimmins, analyste chez The Futurum Group. « Nous commençons à atteindre un stade sur le marché de l’IA où les clients doivent s’attendre à investir dans des modèles conçus pour prendre en charge tout ce qu’ils développent, et pas seulement des modèles à usage général », pointe Bradley Shimmin. « En tant que développeur d’entreprise, vous souhaitez avoir la possibilité de créer une solution adaptée au domaine dans lequel vous travaillez ».
Est-ce que GPT-5 est le saut générationnel tant attendu ? Arun Chandrasekaran de Gartner ne le pense pas. « Nous sommes encore loin de l’intelligence artificielle générale », souligne-t-il.
GPT-5 : attention aux coûts cachés
OpenAI considère néanmoins que ses autres modèles doivent être dépréciés dans ChatGPT. Les API dédiées aux précédents LLM ne sont pas supprimées et le fournisseur n’a pas encore précisé de date de fin de vie pour une grande partie d’entre eux.
Malgré cette éventualité, la tarification de GPT-5 est attractive, davantage que celle associée à GPT-4o et GPT-4.1 :
- GPT-5 coûte 1,25 dollar pour 1 million de tokens en entrée et 10 dollars pour 1 million de tokens en sortie ;
- GPT-5 mini est facturé 0,25 dollar pour 1 million de tokens en entrée et 2 dollars pour 1 million de tokens en sortie ;
- GPT-5 nano est encore moins cher : 0,05 dollar pour 1 million de tokens en entrée, 0,40 dollar pour le même volume en sortie.
Cette agressivité tarifaire semble nécessaire. Anthopic a lancé Claude Opus 4.1 et Google, Gemini 2.5 Deep Think. Selon le fonds d’investissement Menlo Ventures, Anthropic détiendrait 32 % de parts du marché de l’IA en entreprise, quand OpenAI en aurait 25 % et Google 20 %. Sur le marché spécifique à la programmation, la part de marché d’Anthropic grimperait à 42 %, contre 21 % pour OpenAI et 16 % pour Google. OpenAI revendique 5 millions d’utilisateurs payants pour les versions Pro et Enterprise de ChatGPT, contre 20 millions pour GitHub Copilot. Pour rappel, OpenAI avance 700 millions d’utilisateurs hebdomadaires pour ChatGPT.
Mais cette course au prix bas cache un enjeu de taille quand il est question de GPT-5, signale Jerry Liu, cofondateur et CEO de LLamaIndex, sur LinkedIn. « Nous déployons activement les modèles GPT-5 pour la compréhension de documents à partir de capture d’écran », décrit-il. « D’après nos tests, nous concluons de manière préliminaire que, même si sur le papier, GPT-5 est moins cher que GPT-4.1, il use 4 à 5 fois plus de tokens, ce qui le rend nettement plus onéreux que ce dernier », constate-t-il. « On peut supposer que GPT-5 utilise beaucoup plus de tokens de réflexion longs afin de raisonner sur les images, ou qu’ils ont changé le tokenizer ». Ce même enjeu apparaît dans des tests de programmation, d’après les internautes ayant pu accéder aux LLM concernés.
D’autres remarquent que le routeur dynamique ne fait pas fait systématiquement les bons choix. LeMagIT reviendra sur cet aspect dans un autre article.
GPT-5 est embarqué dans Microsoft Copilot, GitHub Copilot ou encore Azure AI Foundry. Box le propose dans son AI Studio, tandis que SAP s’appuie sur Azure AI Foundry pour le proposer à ses clients. Windsurf et Cursor sont également de la partie.