kirill_makarov - stock.adobe.com

Avec o1-preview et o1-mini, OpenAI met l’accent sur le raisonnement

Bien que le raisonnement soit une évolution nécessaire vers des flux de travail basés sur des agents d’intelligence artificielle, il ne résout pas le problème des biais dans les grands modèles de langage. La solution est plus complexe qu’il n’y paraît.

OpenAI a publié jeudi de nouveaux grands modèles de langage en préversion.

OpenAI o1 est une série de modèles d’IA conçus pour passer plus de temps à réfléchir ou à traiter les informations avant de répondre, selon le créateur de ChatGPT.

OpenAI a également présenté OpenAI o1-mini, un modèle de raisonnement moins cher et efficace en matière de programmation.

Ces LLM s’appuient sur GPT-4o. Ils partagent la même base de connaissances (arrêtée en octobre 2023) et disposent d’une fenêtre de contexte de 128 000 tokens en entrée. O1-preview peut générer jusqu’à 32 768 tokens en sortie, contre 65 536 tokens pour o1 mini. Dans l’application ChatGPT, cette limite est ramenée à 32 000 tokens.  

Les modèles ont appris à affiner leur processus de réflexion et à essayer différentes stratégies au cours de leur entraînement, déclare OpenAI.

Comment ? En internalisant le mécanisme de cheminement de pensée (chain of thought). Cette approche correspond originellement à une manière d’écrire des prompts invitant les modèles à effectuer un raisonnement étape par étape avant de fournir une réponse finale. Les fournisseurs de LLM sont de gros utilisateurs de cette technique. Son influence s’est faite de plus en plus visible au fur et à mesure que les fournisseurs ont proposé des variantes instruites de leurs modèles. À une simple question, certains LLM, dont GPT-4o, ont tendance à ne plus produire un texte, mais à fournir une liste de points, signalant que les prompts utilisés lors de la dernière phase de fine-tuning supervisé sont rédigés selon cette approche.

Ici, OpenAI introduit le mécanisme chain of thought plus tôt dans le cycle d’entraînement à l’aide de techniques d’apprentissage par renforcement.

L’apprentissage par renforcement sert à enseigner aux petits et grands modèles de langage (LLM) à obtenir de meilleurs résultats à l’aide de certaines actions qui pénalisent les mauvais résultats et récompensent les bons. Cette technique implique généralement l’entraînement et le déploiement d’un modèle de récompense à partir de résultats ou de données filtrés par l’équipe de recherche.

« Notre algorithme d’apprentissage par renforcement à grande échelle apprend au modèle à penser de manière productive en utilisant sa chaîne de pensée dans le cadre d’un processus d’entraînement très efficace en termes de données », confirment les scientifiques d’OpenAI dans un billet de blog.

La startup n’a toutefois pas dévoilé précisément les mécanismes à l’œuvre au cœur de son processus.

Les nouveaux modèles ont jusqu’à présent reçu un accueil mitigé.

Un pas en avant pour l'agentique

De meilleurs modèles de raisonnement constituent une étape vers les modèles agentiques – des systèmes d’IA qui effectuent des tâches avec peu ou pas d’intervention humaine. De nombreux fournisseurs, notamment Google, travaillent également à la création de meilleurs modèles de raisonnement.

« Il s’agit incontestablement d’un pas en avant, qui montre un schéma d’évolution clair pour les modèles d’IA générative », déclare Arun Chandrasekaran, analyste chez Gartner. « Les agents ont besoin de nombreuses capacités différentes, l’une d’entre elles étant clairement le raisonnement. Il s’agit sans aucun doute de l’un des piliers essentiels pour permettre la création d’agents plus autonomes à l’avenir ».

Outre le raisonnement, les agents d’IA ont également besoin de mémoire et d’orchestration, poursuit-il.

Si les nouveaux modèles d’OpenAI sont performants en matière de raisonnement, ce qui est particulièrement utile pour les mathématiques et la programmation, la manière dont les entreprises utiliseraient ces modèles n’est pas claire.

Un meilleur raisonnement semble intéressant, mais pour les entreprises, le temps de réponse plus lent et le coût plus élevé des modèles o1 et o1-mini par rapport aux LLM plus rapides pourraient constituer un défi, estime Arun Chandrasekaran.

OpenAI n’a pas encore révélé la tarification des modèles.

Des biais et des débats philosophiques

Bien qu’il soit souhaitable d’améliorer le raisonnement des modèles d’IA, cela n’élimine pas le problème de la partialité ou la présence de biais.

Certains modèles qui utilisent le mécanisme de chaîne de pensée (chain of thought), comme OpenAI o1, ont souvent tendance à baser leur raisonnement sur des données biaisées.

Pour cette raison, OpenAI et d’autres créateurs d’IA pourraient avoir besoin non pas de modèles spéciaux capables de raisonner, mais d’améliorer la précision des modèles et l’hallucination avec de meilleures données, indique Mark Beccue, analyste au sein de l’Enterprise Strategy Group de TechTarget [propriétaire du MagIT].

« Plus les données sont bonnes, mieux les modèles peuvent répondre aux questions », rappelle Mark Beccue.

Selon lui, il est préférable d’entraîner les modèles à partir de données de meilleure qualité et d’indiquer la source de ces données. « C’est une question de transparence », juge-t-il.

« Quel est l’intérêt d’avoir un raisonnement pour obtenir de meilleurs résultats ? », poursuit Mark Beccue. « Si vous raisonnez sur des données erronées, c’est toujours mauvais. Commençons par la base, c’est-à-dire des données de qualité ».

Les chercheurs d’OpenAI affirment avoir mis en place des processus stricts afin de filtrer les données avant, pendant et après l’entraînement, en faisant appel – entre autres – à des équipes de red teaming externes.

OpenAI assure que son mix de données inclut des données publiques et open source, ainsi que « des ensembles de données non publiques de grande valeur ».

« Ces sources de données exclusives comprennent des contenus payants, des archives spécialisées et d’autres jeux de données spécifiques à un domaine qui fournissent des informations plus approfondies sur les connaissances et les cas d’usage propres à un secteur d’activité », évoque la startup.

Pour autant, étant donné leur capacité à prédire le prochain mot dans une phrase et malgré les instructions données par les scientifiques, les grands modèles de langage ne sont pas capables de reproduire à 100 % et en toute confiance leurs sources. Cela s’appelle une « hallucination intentionnelle », informe OpenAI.

« Les hallucinations intentionnelles se produisent principalement lorsqu’on demande à o1-preview de fournir des références à des articles, des sites web, des livres ou des sources similaires qu’il ne peut pas facilement vérifier sans avoir accès à une recherche sur Internet », indiquent les chercheurs. Cela l’amène « à inventer des exemples de sources plausibles à la place ».  

Dans d’autres cas plus restreints, le modèle o1 peut échouer à « partager son incertitude » sur les sources citées.

Les équipes d’OpenAI semblent pratiquer le doute cartésien : peut-on faire confiance aux sources – aussi réputées et vérifiées soient-elles – après (et même avant ?) leur assimilation par un LLM ? Vaste question.

Pour combler cette lacune, le LLM pourrait exposer son raisonnement – sa chaîne de pensée – afin de déterminer le niveau de fiabilité de la réponse.

Là encore, les chercheurs d’OpenAI évoquent des limitations qui relèvent à la fois de la technique (ce qui pourrait aussi être un moyen de protéger sa propriété intellectuelle) et d’une volonté de protéger l’image de la startup.

Les chercheurs, eux, peuvent accéder à la chaîne de pensée d’o1, dite « cachée ». « Cela nous permet de lire dans l’esprit du modèle et de comprendre son processus de pensée », affirment-ils. À l’avenir, ils espèrent ainsi déceler les tentatives de manipulation de l’utilisateur par les LLM.

Pour cela, « le modèle doit avoir la liberté d’exprimer ses pensées sous une forme inchangée, de sorte que nous ne pouvons pas appliquer à la chaîne de pensée une quelconque conformité à la politique ou aux préférences humaines », notent-ils. « Nous ne voulons pas non plus qu’une chaîne de pensée non alignée soit directement visible par les utilisateurs ».

La chaîne de pensée interne d’o1 preview impose par ailleurs des changements d’habitudes pour les développeurs. Selon les bonnes pratiques listées par OpenAI, il n’est plus nécessaire, voire inutile d’écrire des prompts chain of thought de type « explique ton raisonnement » ou « accomplis cette tâche étape par étape ». Il suffit d’utiliser des prompts « clairs et directs ». En revanche, l’utilisation de marques de ponctuation ou des labels XML aide le LLM « à traiter différentes sections d’un prompt de manière appropriée ».

Concernant l’utilisation d’o1 preview dans un système RAG, OpenAI recommande « de n’inclure que les informations les plus pertinentes afin d’éviter que le modèle ne complique trop sa réponse ».

La nécessité de disposer à la fois de bonnes données et d’un meilleur raisonnement est révélatrice de l’équilibre qui doit être trouvé sur le marché de l’IA générative entre l’innovation et l’éthique, affirme Alon Yamin, cofondateur et PDG de Copyleaks, un éditeur de logiciels d’analyse de texte basés sur l’IA.

« Il faut s’assurer que, d’une part, nous continuons à avoir de nouveaux modèles plus performants », avance-t-il, ajoutant que le raisonnement est un exemple de ce type d’innovation. « D’un point de vue éthique, il s’agit de s’assurer que l’on comprend bien quelles sont les informations sur lesquelles on s’appuie, quelles sont les limites, et que l’on identifie et atténue les risques liés aux modèles ».

Les utilisateurs de ChatGPT Plus et Team peuvent désormais accéder aux modèles o1 dans ChatGPT et via l’API OpenAI. Ceux de ChatGPT Enterprise et Education auront accès aux modèles le 19 septembre 2024.

Certains développeurs peuvent commencer à tester les modèles depuis le 12 septembre.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM

Close