
mihakonceptcorn - stock.adobe.co
L'été bien chargé d'OpenAI
Lancement de ses premiers agents, arrivée de ChatGPT 5, retour à l’open weight avec deux modèles (en collaboration avec Hugging Face), et sortie officielle de son outil de compréhension et de génération de la voix (Realtime API) qui sort de beta. L’été n’a pas été synonyme de vacances pour OpenAI.
Hasard du calendrier, c’est au milieu de l’été qu’OpenAI, l’entreprise derrière ChatGPT, a lancé plusieurs nouveautés majeures. Ces annonces, qui vont de modèles ouverts (open weight) à ChatGPT 5, en passant par des agents, ont été faites pendant que beaucoup de ses clients étaient en vacances.
Si, comme beaucoup, vous n’étiez pas à l’affût de l’actualité, mais à la plage ou en randonnée, cette semaine de rentrée est le moment idéal pour faire un rapide point récapitulatif.
Des agents « très bien outillés »
La cavalerie d’annonces a débuté peu après le 14 juillet avec la sortie des premiers agents d’OpenAI.
Pour cette nouveauté, l’éditeur a fusionné Deep Reasearch (qui fait des rapports particulièrement détaillés) et Operator (capable d’aller collecter des données via API et d’utiliser un navigateur pour visiter des sites web y compris après une identification).
Le résultat est un agent capable d’agir de manière proactive – une sorte de secrétaire particulier numérique. « ChatGPT Agent est très bien outillé : tableur, calculatrice, présentation (PPT), génération d’images, etc. », souligne un porte-parole d’OpenAI pour vanter le potentiel de ce nouvel outil.
Les usages professionnels pourraient en tout cas devenir particulièrement pertinents avec les connecteurs. L’interfaçage peut se faire via ceux, natifs, d’OpenAI (Github, Drive, Box, Dropbox, Hubspot, etc. – disponibles en fonction des plans), ou avec des connecteurs « personnalisés » (en suivant le modèle MCP).
GPT-5 : 80 % d’hallucinations en moins
Le 8 août, c’est ChatGPT 5 qui prenait son envol en devenant le nouveau « modèle frontière » d’OpenAI (son modèle le plus rapide et le plus efficace).
La caractéristique majeure de ce nouveau LLM est de diriger les requêtes vers différents modèles (réponse plus rapide, ou plus poussée). Autre point clef, ChatGPT 5 serait le premier modèle à proposer des capacités poussées de raisonnements en libre accès au grand public, assure OpenAI.
Sans raisonnement, ChatGPT5 ferait 45 % d’hallucination de moins que le précédent modèle frontière, et 80 % de moins avec le raisonnement activé.
Arrivé en parallèle, un « Study Mode » (traduit par « Étudier et Apprendre ») est apparu dans l’interface de ChatGPT. Le principe est de ne pas donner la réponse immédiatement à une question, mais de dérouler un raisonnement et de poser des questions à l’utilisateur à chaque étape dans un « esprit de tutorat et de professeur particulier », résume un porte-parole.
Ce mode pourrait intéresser les entreprises pour la formation, en particulier sur des thématiques générales (apprendre une langue, etc.)
OSS 117, le retour de l’open weight
Début août, également, l’éditeur annonçait son retour aux modèles ouverts – « open weight » – avec deux modèles baptisés « oss », dont un avec 117 milliards de paramètres (« oss 117 », cela ne s’invente pas, et ce n’est pas une blague… mais il s’appelle en fait gpt-oss-120B).
Un second modèle, plus petit, propose 20 milliards de paramètres. Il est le fruit d’une réflexion avec la communauté qui voit de plus en plus l’intérêt pour des « petits » modèles (gpt-oss-20B peut tourner sur des Mac de dernières générations).
Les deux modèles open weight ont été conçus en collaboration avec Hugging Face (la petite histoire dit que l’idée de ces modèles est venue après un échange entre Sam Altman et Clément Delangue lors de la fête d’ouverture du bureau parisien d’OpenAI).
gpt-oss-120B et gpt-oss-20B sont sous licence Apache 2. « Une licence très ouverte », et très permissive, vante OpenAI, mais ils sont tout de même bridés, par exemple pour refuser d’aider à concevoir des cyberattaques et des armes biologiques.
Ces modèles entièrement « text-to-text » ont des capacités de raisonnement, des capacités de coding « très fortes », dixit OpenAI, et des capacités multilingues.
Orange, avec qui OpenAI a passé un partenariat industriel (comme avec Scaleway), a d’ailleurs utilisé ces LLM open weight pour traduire des contenus dans plusieurs langues africaines peu couvertes par les outils classiques de traduction automatique.
Utilisables hors connexion, les modèles peuvent être testés sur le site GPT-OSS.com hébergé par Hugging Face.
GPT Realtime sort de phase beta
Enfin, last but not least, juste avant la rentrée, gpt-realtime, le modèle « speech-to-speech », est sorti de la phase beta lancée en octobre 2024.
Le principe fondateur de cet outil est de ne plus gérer les échanges vocaux en deux étapes (d’abord avec un système de reconnaissance vocale puis avec un système de synthèse vocale), mais de fusionner les deux dans un seul modèle (et donc une seule API).
« Résultat : des réponses plus rapides, expressives et naturelles », se félicite OpenAI.
Pour les entreprises, « ce modèle a été entraîné afin d’exceller sur des cas d’usage concrets comme le support client, l’assistance personnelle et l’éducation, en étroite collaboration avec nos clients », ajoute l’éditeur qui, cet été, n’a vraiment pas chômé.