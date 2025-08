Promesse tenue. À la fin du mois de mars 2025, alors qu’OpenAI annonçait changer de statut pour devenir une société à but lucratif (mais à mission), Sam Altman, CEO de l’entreprise, avait dévoilé le développement prochain d’une collection de modèles open weight.

Le 5 août, OpenAI a donc lancé gpt-oss-120B et gpt-oss 20B, deux grands modèles de langage open weight. Les « premiers » depuis GPT-2, sorti en février 2019.

Les LLM gpt-oss sont des modèles de raisonnement – text to text – dont les poids sont sous licence open source Apache 2.0. Selon OpenAI, ils ont été entraînés avec la méthode Chain Of Thought (chaîne de pensée) pour être combinés avec des outils et servir dans des flux de travail agentiques, de la recherche Web ou de l’exécution de code Python.

Les limitations d’usage sont minimales. « Nous souhaitons que nos outils soient employés de manière sûre, responsable et démocratique, tout en vous offrant un contrôle maximal sur leur usage. En utilisant OpenAI gpt-oss-120b et gpt-oss-20b, vous acceptez de vous conformer à toutes les lois applicables », lit-on dans la politique des usages acceptables disponibles depuis GitHub et Hugging Face.

Le fournisseur a fait attention de limiter la puissance de calcul nécessaire à l’inférence. Les deux modèles ont été quantifiés (compressés) en MXFP4 (Microscaling Floating Point). Ce format d’encodage en 4 bits a été conçu spécifiquement pour les charges de travail d’IA et de machine learning. Ainsi, gpt-oss 120B (60,8 Go) tient dans la mémoire vive vidéo d’un GPU Nvidia H100 (80 Go de VRAM), tandis que gpt-oss 20B (12,8 Go) peut tenir sur un GPU Nvidia Blackwell doté d’au moins 16 Go de VRAM. Des GPU d’autres marques sont compatibles, dont ceux d’AMD. Et il est possible d’exécuter gpt-oss 20 b sur un ordinateur Apple doté d’une puce M et de suffisamment de RAM. Nvidia recommande une RTX dotée d’au moins 24 Go de VRAM avec llama.cpp et Ollama, mais gpt-oss 20B peut s’exécuter sur une RTX 5060 Ti de 16 Go de VRAM.

Les modèles semblent toutefois plus aisés à héberger dans le cloud. À n’en pas douter OpenAI et ses partenaires s’assureront de rendre ces modèles abordables : Microsoft a lancé une version ONNX de gpt-20b pour les GPU Nvidia depuis Windows AI Foundry et sa Dev Gallery.

Architecture : un pot-pourri des techniques les plus populaires chez les fournisseurs de LLM Le moins que l’on puisse dire, c’est qu’OpenAI fait davantage preuve de transparence qu’il ne l’a fait ces cinq dernières années. Tout du moins concernant l’architecture de ces LLM open weight. Sans surprise, les LLM gpt-oss reposent sur un transformeur autorégressif dont l’architecture a été modifiée à l’aide de la technique Mixture of Experts (mélange d’experts en français). Celle-ci permet, entre autres, de réduire le volume de paramètres actifs lors du traitement des tokens en entrée. Ainsi, gpt-oss-120B active 5,6 milliards de paramètres par token, quand gpt-oss 20 b en enclenche 3,6 milliards. Du fait de cette architecture, les deux modèles ont au total 117 et 21 milliards de paramètres. Oui, un LLM d’OpenAI aurait pu s’appeler gpt-oss-117B. Le fournisseur détaille même le nombre de paramètres entre le cœur du modèle (Le MLP – Multi Layer Perceptron – : 114,71 et 19,12 milliards de paramètres), l’attention (96 et 64 millions de paramètres) et le mécanisme d’embedding (1,16 milliard de paramètres dans les deux LLM). Le papa de ChatGPT précise par ailleurs le nombre de couches neuronales par modèle, 36 pour gpt-oss-120b et 24 pour gpt-oss 20B. Quatre groupes de paramètres experts sont activés par token traité. La fonction d’activation n’est autre que SwiGLU, une méthode mathématique inventée par un chercheur de Google. Elle est réputée pour ses performances et sa capacité à capturer les relations complexes entre les données. Son implémentation serait toutefois « non conventionnelle ». OpenAI intègre un mécanisme d’écrêtage pour limiter les valeurs extrêmes et une connexion résiduelle entre l’entrée et la sortie afin d’améliorer la stabilité et la performance des modèles à l’entraînement. Les gpt-oss reprennent le double mécanisme d’attention développé pour GPT-2 et 3. « Les modèles utilisent des patterns d’attention alternant entre des motifs denses et des motifs clairsemés localement, similaires à ceux de GPT-3 », expliquent les chercheurs d’OpenAI. Dans la couche d’attention dense, chaque token peut « écouter » tous les autres tokens d’une séquence. Avec la couche locale, chaque token ne fait attention qu’à un nombre limité de token, dans une « bande » autour de sa position. Pour rappel, cette approche favorise l’efficacité des calculs, consomme moins de mémoire et préserve la capture des dépendances à l’échelle du contenu en entrée. Largement utilisée et déclinée par les fournisseurs, dont Mistral AI, cette méthode a surtout permis d’allonger la fenêtre de contexte des modèles de langage. « Pour l’efficacité de l’inférence et de la mémoire, les modèles [gpt-oss] utilisent également une attention multirequêtes groupées (GQA), avec une taille de groupe de 8. Nous utilisons l’encodage positionnel rotatif (RoPE) pour l’encodage positionnel [des tokens] et prenons en charge nativement des longueurs de contexte allant jusqu’à 128 000 tokens [131 072 exactement, N.D.L.R.] », poursuivent les chercheurs. Ce sont deux autres méthodes popularisées par Meta. Concernant le Tokenizer, l’outil responsable de convertir les mots en entrée en token, OpenAI a utilisé o200k_harmony. Ce système open source disponible dans la librairie Tiktoken repose sur la technique Byte Pair Encoding (BPE). Elle consiste à diviser le texte en caractères individuels, puis fusionner les paires de symboles les plus fréquentes afin de créer un « vocabulaire » de tokens (des sous-mots). Il s’agit d’une version étendue du tokenizer o200k utilisé lors de l’entraînement de GPT-4o et o4 mini contenant un vocabulaire de plus de 200 000 tokens.

Un manque criant de transparence sur les données et les méthodes d’entraînement Tous ces détails sont intéressants pour les chercheurs et les fournisseurs de LLM. Or, OpenAI est bien moins loquace concernant les données et méthodes d’entraînement. La Commission européenne pourrait dire que l’entreprise ne respecte pas le volet de l’AI Act en vigueur depuis le 2 août. Le fournisseur évoque un jeu de données textuel principalement en anglais contenant des « milliers de milliards » de tokens avec « un focus sur les sciences, les technologies, les mathématiques et l’ingénierie, les connaissances générales et la programmation ». Les données dites dangereuses, dont celles qui permettraient d’obtenir des recettes de bombes biochimiques, ont été filtrées avec la même technique employée pour GPT-4o. La limite de connaissances de gpt-oss est arrêtée au mois de juin 2024. Il n’y a pas plus d’informations sur le pré-entraînement. Lors du post-entraînement, OpenAI assure avoir appliqué un « processus similaire » à celui utilisé pour o4-mini. Il y aurait donc une première étape de fine-tuning supervisé, suivie d’une « phase d’apprentissage par renforcement, très intensive en calcul ». C’est à peu de chose près l’approche décrite par DeepSeek lors du lancement de DeepSeek-R1. À cela s’ajoute une phase d’alignement pour leur apprendre à refuser les réponses à certaines requêtes illicites ou cybermalveillantes. « Notre objectif était d’aligner les modèles sur les spécifications OpenAI Model Spec [un guide de bonnes conduites pour les LLM conçues par l’entreprise, N.D.L.R.] et de leur apprendre à appliquer le raisonnement “chaîne de pensée” et l’utilisation d’outils avant de produire leur réponse », résument les chercheurs d’OpenAI. « En utilisant les mêmes techniques que nos modèles de raisonnement propriétaires, les LLM “open weight” démontrent des capacités exceptionnelles après la phase de post-entraînement ». Bref, OpenAI conserve ses recettes secrètes. OpenAI affirme avoir utilisé le framework PyTorch, un supercalculateur doté de GPU H100 et l’équivalent 2,1 millions d’heures GPU pour gpt-oss 120B et « dix fois moins » (210 000 heures GPU, environ) pour entraîner gpt-oss-20B. Le fournisseur ne détaille pas l’impact carbone d’une telle phase, mais c’est toutefois bien moins important que l’entraînement de Llama 4 (plus de 7,3 millions d’heures GPU).