« Guerre » des LLM : OpenAI riposte avec o3-mini et deep research
OpenAI a lancé o3-mini, un modèle de raisonnement « low-cost », ainsi que deep research, un agent consacré aux recherches Web les plus complexes. Des LLM qui justifieraient des investissements massifs en puissance de calcul, selon le directeur scientifique de la startup.
Depuis le vendredi 31 janvier, les abonnés des forfaits Plus, Team, et Pro peuvent envoyer 150 prompts/messages par jour vers o3-mini, contre 50 prompts auparavant avec o1-mini. Les usagers de la version gratuite de ChatGPT ont le droit à quelques réponses par jour.
Avec l’API, OpenAI facture 1,10 dollar par million de tokens en entrée. Un tarif rabaissé à 0,55 dollar par million de tokens quand les entrées sont mises en cache. Les sorties coûtent 4,40 dollars par million de tokens. C’est 13,6 fois moins cher qu’o1 et au même prix qu’o1-mini.
O3-mini se rapproche d’o1 tout en étant 13 fois moins cher
Si c’est une habitude chez OpenAI, cette coupe dans les prix est sûrement liée à la compétition. DeepSeek, la startup chinoise qui a fait grand bruit la semaine dernière, pratique des tarifs particulièrement agressifs. L’accès au modèle DeepSeek-R1 depuis un cloud hébergé en Chine (non conforme aux droits européens) coûte 2 fois (en entrée) à 4 fois moins cher (en sortie) qu’o3-mini.
Ce modèle o3-mini, entraîné avec des prompts « Chain of Tought », serait particulièrement efficace dans la résolution de problèmes scientifiques, de mathématiques et de programmation. Il dispose d’une fenêtre de contexte de 200 000 tokens (contre 128 000 avec o1-mini) et peut générer des réponses d’une longueur maximale de 100 000 tokens (65 000 avec o1-mini). Sa limite de connaissance (« Knowledge cutoff ») est établie au mois d’octobre 2023.
OpenAI avait déjà un « petit » LLM de raisonnement : o1-mini. O3-mini surpasse son aîné et répond plus rapidement.
« Les testeurs ont préféré les réponses de o3-mini à celles de o1-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures dans les questions difficiles du monde réel », précise OpenAI. « Avec un effort de raisonnement moyen, o3-mini égale les performances de o1 dans certaines des évaluations de raisonnement et d’intelligence les plus difficiles, notamment AIME et GPQA ».
Des arguments pour contrer DeepSeek
En comparaison avec les résultats partagés par DeepSeek, o3-mini semble plus performant que DeepSeek-R1 sur ces tests AIME 2024 (une compétition mathématique) et GPQA Diamond (un test de biologie et physique-chimie pour éprouver les LLM).
Aussi, la startup américaine introduit la prise en charge de l’appel de fonction, des sorties structurées (par exemple sous forme de fichiers JSON), ainsi que les preprompts consacrés aux développeurs. OpenAI précise qu’o1 mini n’était pas doté de ces capacités. Concernant ce point précis, elle prend de l’avance sur son concurrent DeepSeek. En effet, les chercheurs de la startup chinoise précisent que les modèles R1 ne peuvent pas encore enclencher ces outils dédiés à la programmation.
« Comme OpenAI o1-mini et OpenAI o1-preview, o3-mini supportera le streaming. En outre, les développeurs peuvent choisir entre trois options d’effort de raisonnement – faible, moyen et élevé – afin d’optimiser leurs cas d’usage spécifiques », ajoute OpenAI. En clair, il est possible de faire varier le temps de « réflexion » suivant la complexité de la tâche à accomplir.
En matière de sécurité, o3-mini affiche des résultats proches de ceux d’o1. Ces deux LLM sont moins sensibles aux jailbreaks que GPT4-o…, alors que les tests menés par les chercheurs en cybersécurité de Cisco tendent à prouver que DeepSeek-R1 est sensible aux 50 attaques tirées aléatoirement du parangonnage HarmBench. Un taux alarmant de 100 % de réussite pour les attaquants. O1-preview affiche un score de 26 %. Cela dit, les LLM les plus populaires ne sont pas franchement meilleurs que R1 : les chercheurs ont obtenu un taux de réussite de 86 % avec GPT-4o, de 96 % avec Llama 3.1 405B de Meta et de 64 % pour Gemini 1.5 Pro de Google. Seul Claude 3.5 Sonnet et o1-preview sont plutôt efficaces en la matière.
Deep research : un agent pour accélérer la veille et les méta-analyses
Mais les modèles ne font pas tout. Le dimanche 2 février – et après avoir lancé Operator –, OpenAI a présenté deep research, un agent accessible par les abonnés Pro (100 requêtes par mois) et plus tard à travers les forfaits Team et Plus. Sa disponibilité est déjà sur la feuille de route des abonnements Education et Enterprise. Pour l’heure, l’agent n’est pas disponible en Union européenne, en Suisse et au Royaume-Uni. OpenAI y travaille.
Il s’agit d’un système capable de réaliser des recherches sur le Web en plusieurs étapes afin de répondre aux requêtes les plus complexes.
Deep research serait à la fois adapté aux recherches des particuliers quand ils souhaitent acheter certains biens (un ordinateur ou une voiture par exemple), et surtout aux chercheurs et spécialistes en finance, en sciences, en ingénierie, etc.
Cet agent est propulsé par une « version future modèle OpenAI o3 optimisée pour la navigation sur le Web et l’analyse de données ». Elle a été entraînée à l’aide d’un pipeline d’apprentissage par renforcement « de bout en bout », qui mêle des étapes de recherche sur le Web et des tâches de raisonnement.
Il s’appuierait « sur le raisonnement pour rechercher, interpréter et analyser des quantités massives de textes, d’images et de PDF sur internet, en pivotant, si nécessaire, en réaction aux informations qu’il rencontre ».
En entrée, l’usager peut fournir du texte, des documents et des diagrammes (à l’aide d’un outil prenant en charge Python). L’outil cite ses sources et documente ses réponses. Deep Research serait « particulièrement efficace pour trouver des informations spécialisées et non intuitives qui nécessiteraient de parcourir de nombreux sites Web ». OpenAI promet de résorber le temps de recherche de plusieurs heures à quelques dizaines de minutes.
« Nous avons retiré la contrainte temporelle avant que le modèle présente une réponse », explique Mark Chen, directeur scientifique chez OpenAI, dans un « live » de présentation. « Deep research peut prendre 5 à 30 minutes avant d’afficher un résultat », assure-t-il.
Avant de lancer cette recherche, le modèle peut réclamer des précisions. Une barre de chargement est affichée et les étapes de raisonnement dynamiques sont affichées sur le côté droit.
S’il est beaucoup plus efficace que les autres modèles d’OpenAI et DeepSeek-R1, deep research est loin d’être parfait.
Deep research « peut parfois halluciner dans les réponses ou faire des déductions incorrectes, bien qu’à un taux nettement inférieur à celui des modèles ChatGPT existants, selon les évaluations internes », reconnaît OpenAI. « Il peut avoir du mal à distinguer les informations faisant autorité des rumeurs, et montre actuellement des faiblesses dans l’étalonnage de la confiance, ne parvenant souvent pas à exprimer l’incertitude de manière précise ».
Sans les bons prompts et les bonnes sources pour l’orienter en entrée, deep research peut donc produire des erreurs qu’un expert ne ferait pas.
Plus de puissance de calcul pour laisser les LLM « réfléchir » plus longuement
« Aujourd’hui, nous avons un agent deep research qui parcourt le Web, mais vous pouvez imaginer que ce même agent puisse être connecté à des bases de contenus personnalisés ou à des entrepôts de données d’entreprise ».
Mark ChenDirecteur scientifique, OpenAI
L’outil est accessible via l’interface Web de ChatGPT et la startup prévoit de le rendre accessible à travers ses applications mobiles et desktop au cours du mois.
« Nous ne faisons que gratter la surface », avance Mark Chen. « Aujourd’hui, nous avons un agent deep research qui parcourt le Web, mais vous pouvez imaginer que ce même agent puisse être connecté à des bases de contenus personnalisés ou à des entrepôts de données d’entreprise ».
Le directeur scientifique place cet outil comme un élément de la feuille de route d’intelligence artificielle générale (IAG). « Nous croyons aux agents capables de “réfléchir” de plus en plus longuement, de manière plus autonome, pour résoudre des tâches très difficiles ».
Et Mark Chen de justifier en creux la participation d’OpenAI au projet d’investissement Stargate soutenu par l’Administration Trump. « Nous pensons que la capacité à “travailler” sur une tâche pendant 30 minutes incite réellement à un investissement accru dans les ressources informatiques ».
Pour approfondir sur IA appliquée, GenAI, IA infusée