Fine-tuning : avec Nemotron 3, Nvidia met le pied à l’étrier des entreprises
Plus qu’une collection de LLM, Nvidia entend fournir les jeux de données, les outils et les recettes pour inciter les entreprises et les éditeurs à l’affinage de grands modèles de langage. L’architecture optimisée de Nemotron 3 s’y prête bien, mais des détails manquent dans le récit de la firme dirigée par Jensen Huang.
Nvidia a annoncé ce 15 décembre le lancement d’une nouvelle collection de modèles de langage sous une licence propriétaire très permissive. La collection est nommée Nemotron 3.
Elle contient les modèles Nano, Super et Ultra. Nemotron 3 Nano dispose de 30 milliards de paramètres et n’en active que 3 milliards. Super disposera de 100 milliards de paramètres, mais n’en activera que 10 milliards par tokens. Ultra, lui affichera 500 milliards de paramètres, mais n’en utilisera que 50 milliards à l’inférence. Seul Nano est actuellement disponible. Super et Ultra devraient être disponibles au cours de la première moitié de l’année 2026.
Ces informations reflètent généralement la nature de l’architecture sous-jacente utilisée. Cette activation de 10 % des paramètres implique l’usage de la technique des mélanges épars d’experts (sMoE). Celle-ci consiste à router les messages des utilisateurs convertis en tokens vers des sous-réseaux de neurones « experts » dans un domaine fondamental (le langage, la grammaire, etc.) ou de connaissances (sciences dures et humaines, ingénierie, etc.).
Nvidia combine Transformer, Mixture of Experts et Mamba
Cette architecture est généralement associée à un Transformer, la fondation de la plupart des modèles de langage depuis 2017. Ici, il y a une subtilité. Nvidia s’appuie sur une architecture qui mélange les capacités d’une architecture Transformer avec celle d’un modèle Mamba.
Mamba est un dérivé des modèles espace-état qui ont été largement utilisé pour prédire des séries temporelles. Ce réseau de neurones particulier dispose d’un mécanisme sélectif permettant de se concentrer ou d’ignorer une séquence en entrée. Cela permet de réduire la capacité de calcul nécessaire à l’entraînement et à l’inférence en baissant le nombre de paramètres actifs d’un tel modèle, tout en conservant une précision élevée. Ici, Nvidia combine un Transformer, Mamba 2, une optimisation proposée par A21Labs, un mécanisme d’attention groupé et un « routeur » perceptron. Du même coup, Nemotron 3 Nano n’active que six de ses 128 experts quand il est interrogé.
Ce n’est pas la première fois que les chercheurs du géant fabless choisissent cette approche. Il l’avait déjà mise en pratique avec Nemotron-H et Nemotron 2 Nano. En réalité, ils s’inspirent de l’équipe Qwen d’Alibaba qui a reproduit des éléments de Mamba 2 sans le reprendre pour créer Qwen3 30B-A3B, entre autres.
Mais au lieu d’une fenêtre de contexte de 128 000 tokens, Nemotron 3 a le droit jusqu’à un million de tokens (256 000 par défaut). Comme Gemini 3 Pro.
Et ce n’est pas pour rien. Le groupe entend proposer une architecture prête pour les systèmes agentiques. Puisque Nvidia cherche là à mettre des architectures et des briques que d’autres utiliseront, le groupe partage les poids, toutes les recettes d’entraînement, le framework associé et certains des jeux de données utilisées. En revanche, l’entreprise semble lister toutes ses sources, libres, publiques et propriétaires.
Une transparence exemplaire concernant les jeux de données
Ainsi, Nemotron 3 Nano a été entraîné avec 25 000 milliards de tokens dans 19 langues et 43 langages de programmation issus du Web (2 500 milliards tirés de CommonCrawl), de dépôt de code, de Wikipédia, de documents liés aux mathématiques, de textes académiques. Le modèle a subi 15 passes, divisées en deux phases. La première qui correspond à 94 % du temps de préentraînement misait sur la diversité des données pour généraliser les résultats. La deuxième ciblait la qualité, par exemple en se servant des données de Wikipédia.
Pour étendre la fenêtre de contexte, les chercheurs de Nvidia ont recouru à une phase de préentraînement en continu en alternant les contenus d’une longueur de 512 000 tokens et de 4 000 tokens. « Nous avons inclus des données synthétiques conçues pour prendre en charge la recherche à longue distance, le raisonnement multi-sauts, l’agrégation d’informations multi-documents et les capacités connexes à différents stades de la formation », précisent les chercheurs.
Une « bonne portion » de ce jeu d’entraînement est disponible publiquement depuis Hugging Face. Il contient 3 000 milliards de tokens de fausses données réalistes consacrés au code, aux mathématiques et au raisonnement.
Les chercheurs ont revu leur filtrage et leurs échantillons, ce qui leur a permis de « conserver près d’un demi-milliard de tokens de mathématiques et de code que les pipelines précédents auraient jetés », indiquent-ils. « Cet accent mis sur le signal plutôt que sur le bruit permet d’obtenir des modèles plus intelligents et plus petits, moins coûteux à former et à exécuter, sans pour autant sacrifier la précision ».
Le post-entraînement de Nemotron 3 Nano cherchait à lui transmettre les fameuses capacités de raisonnement, et le suivi d’instructions spécifiques aux flux de travail agentiques.
Fine-tuning, apprentissage par renforcement : Nvidia libère ses outils et ses recettes
Ainsi, il est divisé en trois étapes : un fine-tuning supervisé, un apprentissage par renforcement avec des récompenses vérifiables et un apprentissage par renforcement avec feed-back humains.
Le fine-tuning supervisé s’est concentré sur le mode de raisonnement et le principe d’étapes multiples. Les chercheurs ont souhaité améliorer les travaux effectués avec Nemotron Nano 2 avec « des données plus diversifiées, de plus hautes qualités et un entraînement plus explicite de ce qu’est le raisonnement multi étape et multitour ». Nvidia libère 13 millions des échantillons synthétiques couvrant des problèmes scientifiques (physique, chimie), mathématiques et de programmation. Il a été généré à l’aide de GPT-OSS-120B d’OpenAI.
La première phase d’apprentissage par renforcement soumet les modèles à la technique GRPO (Group Relative Policy Optimization). Celle-ci, mise en lumière par DeepSeek lors de l’entraînement de son modèle R1, s’appuie sur des règles et des moyennes de récompenses associées à un groupe de réponses plutôt que de s’appuyer sur un modèle de récompense. Un LLM as a Judge (qui n’a pas été entraîné pour l’occasion) s’appuie sur ces récompenses, les instructions et les outils à sa disposition pour alimenter le flux d’entraînement.
Pour ce faire, les chercheurs ont développé la librairie ouverte NeMo Gym, un système multienvironnement qui permet de synchroniser l’entraînement sur des benchmarks bien connus des amateurs d’IA générative (MMLU Pro, AIME, GPQA, IFBench, etc.), tout en uniformisant l’apprentissage sur les domaines et en réduisant les risques de surentraînement, assurent-ils.
NeMo Gym est lui-même un système agentique. Là aussi, le fournisseur met à disposition des recettes et des données. Il ouvre également NeMo RL, un autre framework open source d’apprentissage par renforcement (Gym et RL sont proposés sous licence Apache 2,0).
La phase d’apprentissage par renforcement avec feed-back humain s’appuie sur… un modèle de récompense génératif distillé (entraîné) avec Qwen3-235B-A22B, un des modèles open weight d’Alibaba. Son nom ? GenRM.
« Compte tenu de l’historique de la conversation, d’une nouvelle requête de l’utilisateur et de deux réponses candidates de l’assistant, le GenRM raisonne explicitement sur les forces et les faiblesses de chaque réponse, produit des scores d’utilité individuels et génère un classement relatif entre les candidats », résument les ingénieurs. « Ces signaux de récompense sont ensuite utilisés dans une phase de RLHF pour améliorer l’utilité, la cohérence, l’exactitude et l’expérience globale de discussion avec Nemotron 3 Nano ».
Et comme il faut prendre en compte la sécurité des environnements agentiques, Nvidia libère un jeu de données comprenant 11 000 traces labélisées utilisées dans sa propre évaluation de red teaming.
Résultat, selon Artificial Analysis, Nemotron 3 Nano égale Magistral Medium 1.2 et GPT-OSS-120B. En revanche, il a le défaut d’être « très verbeux » puis qu’il a généré 160 millions de tokens lors de l’évaluation Intelligent Index, contre 23 millions en moyenne pour ses compétiteurs. Il faut dire que cette troisième version de Nano est quatre fois plus rapides que la v2. Elle « crache » près de 380 tokens à la seconde. Le haut du panier en la matière.
Un modèle très ouvert, mais pas open source
Tout cela paraît très ouvert. À quelques exceptions. Nemotron 3 est distribuée sous la licence Nvidia Open Model. Elle est inspirée d’Apache 2.0, mais contient des clauses contre les usages non éthiques et les litiges légaux, ce qui n’est pas conforme aux principes de l’OSI. Le groupe autorise toutefois sans restriction les usages commerciaux, tant qu’il ne se fait pas lui-même attaquer.
Cela ne semble pas inquiéter les primoadoptants, dont Accenture, CrowdStrike, Deloitte, EY, Oracle, Perplexity, ServiceNow, Palantir ou encore Zoom.
L’autre grande inconnue – et c’est plutôt surprenant de la part d’un concepteur de GPU – c’est qu’il y a peu de détails sur l’infrastructure utilisée lors de l’entraînement. L’on apprend juste que des GPU H100 ont été utilisés en parallèle pour la phase d’allongement du contexte, et que le modèle Nano v3 a été optimisé pour les DGX Spark, les GPU H100 et B200. Nemotron 3 Super et Ultra utilisent le format NVFP4 lors de l’entraînement, ce qui implique l’usage des GPU Blackwell, probablement les GB200 et 300.
LM Studio et Unsloth proposent des versions de Nano v3 compatibles avec les GPU RTX 4090 et 5090 (24 Go de VRAM minimum) via le format GGUF de llama.cpp. En revanche, d’après Unsloth, un seul H100 suffit pour fine-tuner la version BF16 du plus petit modèle de la collection. Et c’est là tout l’objectif de cette débauche de science ouverte : Nvidia entend bien favoriser la tendance du moment. Alors que les entreprises mettent à l’épreuve les limites des LLM, l’ensemble de l’écosystème se concentre, à court terme, sur le fine-tuning de modèles pour des usages spécifiques. Une stratégie à contre-courant des débuts de l’IA générative en entreprise. Le réentraînement n’était même pas envisagé à la vue de son coût exorbitant.
Plusieurs fournisseurs, dont Microsoft, Nebius, Nscale, Crusoe, CoreWeave, AWS ou encore Google Cloud le proposeront dans une forme commerciale. Comme Couchbase, DataRobot, JFrog et UiPath. Sans oublier l’accès via les API du catalogue Nvidia NIM.
