chones - stock.adobe.com

Pour récupérer des GPU, OpenAI débranchera GPT-4.5 et le remplace par GPT-4.1

Tout en remarquant l’intérêt de l’expérience GPT-4.5, OpenAI désactivera le modèle mastodonte et propose la collection GPT-4.1 en remplacement. Les LLM multimodaux sont surtout consacrés aux développeurs et aux entreprises qui déploient des systèmes agentiques ou RAG.

OpenAI a annoncé la disponibilité exclusive par API de la collection GPT-4.1. Composée de GPT-4.1, 4,1 nano et 4,1 mini, cette famille de modèles est présentée comme supérieure à GPT-4o et égale à o3-mini et à o1 high.

Ces LLM de langage – vision (génération de texte à partir de textes et d’images) sont tous dotés d’une fenêtre de contexte d’un million de tokens et peuvent en générer jusqu’à 32 000. Leur base de connaissances est figée au mois de juin 2024. GPT-4o ne peut traiter que 128 000 tokens en entrée.

Ici, OpenAI s’adresse aux développeurs. Il met principalement l’accent sur les capacités de programmation, de suivi d’instruction et la longueur de contexte de ses modèles.

GPT-4.1 est même meilleur que GPT-4.5 en matière de génération de code, quand GPT-4.1 mini surpasse ou égale GPT-4o « dans plusieurs benchmarks », tout en réduisant de moitié la latence des réponses. GPT-4.1 nano est « le plus rapide et le moins cher » des modèles proposés par OpenAI, tout en étant meilleurs que GPT-4o mini dans les domaines de compréhension du langage et de la programmation. « Il est idéal pour les tâches de classification et d’autocomplétion », assure OpenAI.

GPT-4.1 ne remplace pas GPT-4o dans ChatGPT, mais sonne le glas de GPT-4.5

Et à la startup de signaler deux choses importantes. Premièrement, GPT-4.1 n’est pas un remplaçant des modèles GPT-4o dans ChatGPT. Là, les LLM ont été mis à jour plusieurs fois et continueront d’être fine-tunés sous l’appellation 4o. Deuxièmement, OpenAI met fin à l’expérience GPT-4.5 dès le 14 juillet 2025. Ce délai de trois mois est accordé aux développeurs pour qu’ils aient le temps d’opérer la transition vers un autre LLM. « GPT-4.1 offre des performances améliorées ou similaires pour de nombreuses capacités clés, avec un temps de latence et un coût nettement inférieurs », affirme OpenAI.

La raison est simple et concerne le manque de capacités de calcul accessible par la startup.

« Nous savons tous que les GPU sont très prisés », explique Kevin Weil, Chief Product Officer chez OpenAI. « Nous voulons nous assurer que nous pouvons distribuer GPT 4.1 le plus largement possible à chacun d’entre vous. […] Nous avons besoin de récupérer ces GPU », lance-t-il.

« Nous avons besoin de récupérer ces GPU ».
Kevin WeilChief Product Officer, OpenAI

Le PDG Sam Altman évoquait la difficulté ainsi que le coût d’entraînement et d’inférence du mastodonte GPT-4.5. LeMagIT en avait déduit qu’il n’aurait pas un grand avenir. « Nous continuerons à faire progresser la créativité, la qualité d’écriture, l’humour et les nuances que vous nous avez dit apprécier dans GPT-4.5 dans les futurs modèles disponibles par API », promet la société.

Outre le fait d’avoir allongé la fenêtre de contexte pour égaler les modèles Gemini de Google et Claude d’Anthropic, OpenAI dit, en substance, avoir modifié le mécanisme d’attention de GPT-4.1 pour mieux comprendre les contenus longs et courts. LeMagIT suppute que la startup a mis en place une fenêtre de contexte hybride. Pour rappel, Meta avait détaillé l’usage du mécanisme NoPE pour Llama 4, de plus en plus populaire chez les chercheurs en IA.

Pour des systèmes RAG et agentiques plus performants

Sur l’exercice « needle in a haystack » – de recherche d’informations dans une grande fenêtre de contexte –, OpenAI constate que « GPT-4.1 surpasse GPT-4o pour des longueurs de contexte allant jusqu’à 128 000 tokens et maintient de bonnes performances même jusqu’à 1 million de tokens ». L’exercice demeure toutefois « difficile », précisent les ingénieurs.

Une plus grande fenêtre de contexte serait par ailleurs pertinente dans un flux agentique, selon la startup américaine. « Associés à des primitives telles que l’API Responses, les développeurs peuvent désormais créer des agents plus utiles et plus fiables pour l’ingénierie logicielle dans le monde réel, l’extraction d’informations à partir de documents volumineux, la résolution de demandes de clients avec un minimum d’aide, et d’autres tâches complexes », vante-t-elle.

Tous les modèles de la collection prennent en charge les sorties structurées, l’appel de fonction et le streaming de données.

Au-delà des gains de performance observés sur des benchmarks statiques, OpenAI dit coopérer avec la communauté de développeurs et les entreprises pour répondre à leurs besoins.

Dans la présentation vidéo qui accompagne le lancement, Michelle Pokrass, responsable de la recherche post-entraînement chez OpenAI, explique que la startup a mis en place un programme pour récupérer des échantillons des échanges avec ses modèles en échange de crédits gratuits. « Nous supprimons les données confidentielles et nous utilisons ce trafic pour améliorer nos modèles. Cela nous permet de créer des évaluations afin de vérifier que nous sommes sur la bonne voie pour les développeurs », assure-t-elle.

Thomson Reuters a pu le tester pour améliorer « de 17 % » la précision de l’analyse multidocument de son assistant légal Cocounsel. Carlyle aurait utilisé GPT-4.1 pour extraire et rechercher des données financières. L’entreprise évoque des gains de 50 % sur la recherche d’informations dans de longs documents.

Des rabais sur les modèles, pas sur l’accès aux outils

En ce sens, la startup continue – en façade – de baisser les coûts.

Ainsi, l’appel à GPT-4.1 coûte 2 dollars pour 1 million de tokens en entrée, 0,5 dollar une fois cette fenêtre de contexte en cache, et 8 dollars pour 1 million de tokens en sortie.

Avec GPT-4.1 mini, un appel contenant jusqu’à un million de tokens en entrée revient à 0,4 dollar (à 0,1 dollar quand ce contexte est mis en cache) et à 1,6 dollar pour 1 million de tokens en sortie.

Le moins cher de tous les modèles d’OpenAI est facturé 0,1 dollar pour 1 million de tokens en entrée, 0,025 pour 1 million de tokens en cache, 0,4 dollar le même volume de tokens en sortie.

Le quota d’appel est fonction d’un système de tiers (six niveaux, de gratuit à Tier 5) jusqu’à 128 000 tokens. Au-delà, un quota distinct s’applique accessible depuis la console OpenAI.

« GPT-4.1 est 26 % moins cher que GPT-4o pour les requêtes médianes », indique la startup. « Pour les requêtes qui utilisent plusieurs fois le même contexte, nous augmentons la remise sur la mise en cache rapide à 75 % (contre 50 % auparavant) pour ces nouveaux modèles », affirme OpenAI. « Enfin, nous proposons des requêtes de contexte longues sans coût supplémentaire au-delà des coûts standard par token ».

OpenAI se paie le luxe de proposer ses modèles 4.1 à un prix inférieur à ceux des LLM Amazon Nova qui avaient placé la barre assez basse et se rapproche sans le battre Google Cloud, dont la collection Gemini 2.0 est « low-cost ». Reste à déterminer clairement si les modèles GPT-4.1 sont meilleurs ou non que Claude 3,7 Sonnet et Gemini 2.5 Pro.

Le fine-tuning et proposé à des tarifs similaires de ceux pratiqués pour GPT-4o. Pour l’instant, GPT-4.1 nano ne peut pas être affiné. « Ce sera le cas dans un avenir proche », avance Kevin Weil.

Il semble évident que l’appel à des services et des outils est la clé des systèmes agentiques. Et c’est là qu’OpenAI compte bien mettre du beurre dans les épinards. C’est particulièrement vrai pour l’outil natif de recherche sur le Web, en fonction d’une fenêtre de contexte indéterminée divisé en trois paliers (bas, moyen et haut), le coût varie de 30 à 50 dollars pour 1 000 requêtes. L’interprétation du code est facturée 0,03 dollar par session et le stockage de fichier de recherche coûte 0,10 dollar par Go par jour (le premier Go est gratuit). La recherche sur une base de données vectorielle revient à 2,5 dollars les 1 000 appels.

Mais c’est sans doute au sein des outils de génération de code que les LLM d’OpenAI sont pertinents. La collection GPT-4.1 est déjà disponible en préversion à travers Visual Studio Code, Codeium, Cursor, Azure OpenAI Service, et GitHub Copilot. Box l’a déjà implanté dans Box AI Studio.

Pour approfondir sur IA appliquée, GenAI, IA infusée