Ascannio - stock.adobe.com

GPT-5.1 : une version mineure pour corriger le tir du décevant GPT-5

En proposant GPT-5.1, le fournisseur de LLM tente de rattraper les débuts difficiles de GPT-5, qui a déçu le grand public. Quitte à faire un peu moins bien sur l’exposition des usagers aux contenus sensibles.

En attendant de lancer GPT-6, OpenAI continuera de proposer des « améliorations notables » dans le cadre de la génération GPT-5. Le fournisseur ouvre donc une standardisation de la livraison de mises à jour mineures, mais utiles. Il emprunte là l’approche d’Anthropic avec Claude, et de Mistral AI.

En ce sens, GPT-5 a été légèrement revu pour proposer un ton plus naturel. Plus proche de ce qu’était, pour certains, le « regretté » GPT-4o.

Vers un alignement sur les préférences humaines « Do It Yourself »

GPT-5.1 est décliné dans deux versions nommées Instant et Thinking. Elles remplaceront, dans trois mois, les anciennes versions similaires des modèles de la collection. Ces variantes seront sélectionnées par défaut.

Dans l’application ChatGPT, Instant est, « plus sympathique et conversationnel », et suivrait mieux les instructions des usagers. Dans ChatGPT, Instant est associé à des tons : professionnel, amical, candide, excentrique, cynique, efficient, et « nerd ». Ces personnalités existaient déjà. OpenAI continuera d’ajouter des options de personnalisation pour que les modèles « s’adaptent aux préférences » des 800 millions d’utilisateurs de l’application.

GPT-5.1 Thinking, le modèle de raisonnement, répondrait plus rapidement à certaines questions ou tâches « faciles ». En revanche, il prend davantage de temps pour traiter les demandes complexes. Résultat, il consommerait 57 % de tokens en moins sur les tâches faciles et 71 % de tokens en plus sur les requêtes complexes.

Le fournisseur promet de meilleurs résultats, sans en montrer la couleur.

GPT-5.1 Auto, le modèle de routage chargé de diriger les questions vers les différents modèles de langage doit permettre une transition plus fluide, adaptée à la demande de l’utilisateur. La sélection automatique s’était révélée décevante avec GPT-5. D’où la disponibilité directe des modèles Instant et Thinking pour les usagers payants. GPT-5.1 Pro suivra « prochainement ». En attendant d’intégrer cette fonction dans un seul modèle système.

OpenAI commence par sortir ces LLM multimodaux pour les abonnés payants de ChatGPT (Pro, Plus, Go, Business). Ils seront mis à disposition dans la version gratuite, puis via API au cours de la semaine.

Pour les entreprises, cette mise à jour pourrait être utile quand elles utilisent GPT-5 au sein d’agents conversationnels. Le comportement de Thinking peut être intéressant pour la recherche profonde, mais cette fonction semble coûter plus cher. Le volume de tokens généré lors des demandes complexes le laisse entendre.

Aux développeurs de vérifier les dires d’OpenAI. Le fournisseur semble de moins en moins transparent dans un contexte hautement concurrentiel. Certains parlent d’ailleurs de « non-annonce ».  

« Pour les développeurs qui créent des applications réelles, cela ne change pratiquement rien. Le modèle coûte toujours le même prix, l’architecture est inchangée et vous obtiendrez des résultats légèrement différents », comprend Stefen Yang, intervenant au laboratoire d’IA appliquée de l’Université Cornell et ex-assistant de recherche à Stanford. « Pour les utilisateurs de ChatGPT, votre chatbot utilise maintenant plus d’emojis, je suppose ».

Plus « sympathique », plus « intelligent », mais aussi « légèrement » plus biaisé

D’autant que ces gains mineurs engendrent des compromis en matière de biais. C’est en tout cas ce que dénotent les benchmarks récemment mis en place par le fournisseur concernant les contenus sensibles.

« Le nouveau modèle gpt-5.1-thinking montre de légères régressions par rapport au modèle gpt-5-thinking pour le contenu impliquant le harcèlement et le langage haineux, ainsi que le contenu sexuel non autorisé », lit-on dans la carte système de GPT-5.1. « Nous travaillons à d’autres améliorations pour ces catégories ».

GPT-5.1 Instant, lui, serait meilleur que la version Instant de GPT-5 lancé en août sur ces nouveaux parangonnages consacrés aux conversations sur les « sujets sensibles ». OpenAI ajoute d’ailleurs les volets santé mentale et attachement émotionnel à ses tests.

Toutefois, « il est légèrement moins bon que gpt-5-instant-oct3 dans les évaluations des contenus sexuels non autorisés, violents, liés à la santé mentale et à la dépendance émotionnelle ».

Ces évaluations seraient « délibérément difficiles » à passer par les modèles. Elles sont malgré tout réalisées dans un environnement contrôlé.

Désormais, et en lien avec l’acquisition de Statsig OpenAI, commence à évoquer les tests réalisés en ligne, sur ses modèles en production. Les « signaux sont faibles », signale OpenAI qui peine à recueillir des requêtes sensibles pendant ses phases d’A/B Testing. Les premiers résultats seraient, malgré tout, encourageants pour GPT-5.1.

Du côté du rejet des jailbreaks, GPT-5.1 Thinking serait, lors des tests, meilleur que son prédécesseur. Instant fait jeu égal avec son aîné. Pour autant, un spécialiste de la technique aurait déjà réussi à faire tomber les défenses de GPT-5.1 Instant.

Pour approfondir sur IA appliquée, GenAI, IA infusée