DeepSeek R1 : ces flous qui jettent le doute sur sa conception
Si la startup chinoise a marqué les esprits avec des modèles moins chers à concevoir, il est intéressant de détailler son approche pour y arriver. DeepSeek se montre particulièrement ouverte sur la méthode, mais elle se garde bien de détailler la provenance des données et les traitements opérés.
DeepSeek. C’était jusqu’alors l’adversaire choisi par Mistral AI. Il est désormais un concurrent d’OpenAI. Et un symbole de la course à l’armement en matière d’IA entre la Chine et les États-Unis. Fondé en 2023, le laboratoire chinois, propriété du fonds Hedge High Flyer, a diffusé la semaine dernière DeepSeek R1 Zero et R1, deux modèles « open weight » (dont les poids sont sous licence MIT) dotés de « raisonnement ». Ils seraient capables d’égaler o1 d’OpenAI.
Ce sont des variantes de DeepSeek v3, dévoilé à la fin du mois de décembre 2024. Ce modèle sMoE (mélange épars de réseaux de neurones experts) de 671 milliards de paramètres a été entraîné à l’aide de 14 800 milliards de tokens. Comme leur modèle d’origine, DeepSeek R1 Zero et R1 n’activent que 37 milliards de paramètres à l’inférence. Tous deux disposent d’une fenêtre de contexte de 128 000 tokens.
Les modèles R1 héritent des capacités de leur aîné. Outre l’efficacité de l’architecture SMoE à « grains fins », l’adoption d’un mécanisme d’attention privilégiant la compression des données à l’inférence, l’encodage des opérations en virgule flottante en 8 bits (et un grand nombre d’optimisations pour y arriver), DeepSeek a adopté un système de prédiction multitoken pour DeepSeek V3. Celui-ci permet de générer des tokens en parallèle afin d’accélérer la réponse du modèle. Toutes ces techniques permettraient de réduire les ressources nécessaires à l’entraînement et rendre le LLM plus efficace.
Donner plus de place à l’entraînement non supervisé
Mais R1 se distingue par la nature de son pipeline d’entraînement.
De fait, les modèles R1 peuvent être considérés comme des variantes affinées d’un modèle préentraîné : DeepSeek V3. Pour se représenter la chose, il est bon de se référer à un schéma, celui concocté par Meta pour présenter Llama 2.
Avec Llama 2, Meta décrit un cycle d'entraînement divisé en deux grandes étapes. À titre de comparaison, celui de DeepSeek R-1 débute à la phase de fine-tuning.
Celui-ci représente l’entraînement d’un LLM en cycle contenant deux grandes étapes : le préentraînement et le fine-tuning. Ici, le fine-tuning est constitué via deux procédés majeurs : l’entraînement supervisé et l’apprentissage par renforcement avec feed-back humain. Le déroulé détaillé dans le rapport technique de DeepSeek concerne cette deuxième étape.
Dans le cas de Llama 2, l’objectif était de répondre aux questions des utilisateurs d’un chatbot. DeepSeek a un autre objectif : créer un modèle capable de développer une argumentation logique, scientifique et mathématique.
La startup souhaitait observer comment le LLM développerait des capacités de raisonnement sans supervision humaine. Ainsi, R1 Zero a été entraîné à l’aide d’un pipeline d’apprentissage par renforcement « à grande échelle », sans recourir à des techniques de fine-tuning supervisé.
Le laboratoire a utilisé une technique de son cru, nommé « Group Relative Policy Optimization » (GRPO). Il s’agit d’une variante de la technique de l’optimisation des politiques proximales (Proximal Policy Optimization), mise en lumière par OpenAI avec ChatGPT.
Proximal Policy Optimization (PPO) est une méthode d’apprentissage utilisée pour améliorer les modèles de langage en les entraînant à partir de comparaisons entre un modèle actuel et un modèle précédent. Cependant, cette méthode est coûteuse en ressources. GRPO élimine le besoin d’un modèle supplémentaire en utilisant des règles et une moyenne des récompenses d’un groupe de réponses. Cela accélérerait l’entraînement et réduirait les ressources de calcul nécessaires lors de cette phase.
Deux algorithmes basés sur des règles ont été entraînés sur deux types de récompenses. Il y a d’abord la « précision », c’est-à-dire l’obtention de résultats considérés comme corrects, par exemple la réponse à des problèmes de mathématiques ou de code, où les résultats sont généralement déterministes (vrai ou faux). L’autre modèle maximise le respect d’un format. Le LLM déroule son cheminement de pensée au sein des balises <think></think>.
R1 Zero a été entraîné ensuite pour développer son argumentaire, puis fournir une réponse sous forme de résumé.
Si R1 Zero a prouvé des capacités de « raisonnement », il présente plusieurs défauts. Ses résultats sont peu lisibles et mélangent des langages (au moins six). Il suffit de se rappeler des trouvailles des modèles AlphaGo pour se rappeler des effets étranges de l’apprentissage non supervisé. Les solutions trouvées peuvent être excellentes, mais peu explicites pour un humain.
Selon DeepSeek, afin de pallier ce défaut, le deuxième modèle R1 a bénéficié d’un entraînement en plusieurs étapes et d’un « démarrage à froid avant l’apprentissage par renforcement ».
Un usage massif de données synthétiques
Ce « démarrage à froid » implique le fine-tuning supervisé de DeepSeek V3-base avec un « petit nombre d’exemples de prompt Chain of Thought », dixit les chercheurs. Un petit nombre qui se compte en milliers d’échantillons.
« Pour collecter de telles données, nous avons exploré plusieurs approches : utiliser un prompt en mode few-shot avec un long raisonnement en chaîne (CoT), inciter directement les modèles à générer des réponses détaillées avec réflexion et vérification, rassembler les sorties de DeepSeek-R1-Zero dans un format lisible, et affiner les résultats par un post-traitement effectué par des annotateurs humains », indiquent-ils.
Autrement dit, les chercheurs ont combiné des données synthétiques, générées par de grands modèles de langage (dont ils taisent les noms) et des données confectionnées par des humains.
Les chercheurs ont formaté un pattern de réponse en utilisant des tokens spéciaux pour délimiter le processus de raisonnement et son résumé.
Une récompense associée à la consistance du langage employé dans la réponse a été ajoutée au cours de l’entraînement. Cela a pour contre-effet de limiter légèrement ses capacités de raisonnement. Les récompenses liées aux tâches de réflexion et celles liées au respect de la cohérence linguistique ont été combinées pour appliquer la phase d’apprentissage par renforcement sur la version légèrement fine-tuné de DeepSeek V3 de base.
Après la convergence de cette version de DeepSeek V3, la startup a utilisé le modèle intermédiaire (checkpoint) pour « collecter » des données afin de préparer une phase d’apprentissage supervisée. Elle a ainsi filtré 600 000 échantillons de données de « raisonnements » et inséré 200 000 éléments de connaissances générales produits par DeepSeek V3. Le tout est validé par un modèle de récompense. Une deuxième étape d’apprentissage par renforcement a été utilisée pour aligner les résultats avec les préférences humaines. « En fin de compte, l’intégration des signaux de récompense et des diverses distributions de données nous permet d’entraîner un modèle qui excelle dans le raisonnement, tout en donnant la priorité à l’utilité et à l’innocuité », avancent les chercheurs. Voilà comment est né DeepSeek R1.
Lors des parangonnages menés par la startup chinoise, R1 aurait montré des performances équivalentes à OpenAI o1-1217 et supérieures à o1 mini, GPT-4o 2024-05-13, ainsi que Claude 3.5 Sonnet 1022.
Or, R1, qui pèse 688 Go, a besoin d’au moins 600 Go d’espace en VRAM et nécessite 100 à 300 Go de VRAM supplémentaire pour répondre. En clair, il réclame deux clusters de huit GPU Nvidia H100 pour fonctionner. Bien que peu coûteux pour un éditeur ou un fournisseur cloud, il n’est pas accessible à l’ensemble de la communauté open source.
La distillation de connaissances, encore
C’est là qu’entre en jeu une autre technique très populaire au sein des équipes de recherche : la distillation de connaissances. Celle-ci consiste à utiliser les résultats d’un modèle professeur à un modèle élève, plus petit. Elle est expliquée en détail par Google DeepMind et a fait l’intérêt des modèles « open weight » Gemma 2. Ici, la startup a utilisé les 800 000 échantillons supposément générés par les versions intermédiaires de R1 afin de fine-tuner six LLM « ouverts » : Qwen 2.5-Math-1.5B, 7B, Qwen 2.5 32B, 14B, Llama 3.1-8B et Llama 3.3-70B Instruct. Tous sont disponibles sur HuggingFace.
Après deux passes sur ce jeu de données (epochs), ces modèles distillés obtiendraient tous des scores supérieurs à GPT4o, o1 mini et Claude 3.5 Sonnet une fois confrontés aux benchmarks dédiés aux tâches scientifiques, mathématiques et de programmation les plus ardues. Les LLM distillés n’ont pas été testés sur les benchmarks traditionnellement appliqués.
Aussi DeepSeek remarque que R1 n’est pas aussi bon que V3 dans des tâches comme l’appel de fonction, l’usage du format JSON, l’ingénierie logicielle. DeepSeek-R1 a également du mal à répondre dans d’autres langues que le chinois et l’anglais.
Les modèles distillés n’ont subi qu’un apprentissage supervisé léger. « Ajouter une phase d’apprentissage par renforcement pourrait améliorer de manière substantielle leurs performances », anticipent les chercheurs chinois.
DeepSeek-R1 est-il un enfant caché d’o1 ?
Plusieurs éléments provoquent le doute chez les observateurs, dont la nature des données utilisées lors de l’entraînement.
Contrairement aux dires de la startup, DeepSeek R1 et ses variants ne sont pas « totalement open source ». À aucun moment, les chercheurs ne détaillent la provenance des données. Il est fortement possible que le spin-off d’High-Flyer ait utilisé des LLM propriétaires pour générer les prompts utilisés aux différentes étapes de l’entraînement. Selon Bloomberg et The Financial Times, OpenAI et Microsoft enquêtent en ce sens. DeepSeek est soupçonné d’avoir utilisé les modèles GPT4o et o1 pour entraîner ses modèles. Pour rappel, OpenAI interdit officiellement cette pratique dans ces conditions d’utilisation. Il semble toutefois qu’elle ait permis à son investisseur Microsoft de le faire pour entraîner les modèles Phi-4, eux aussi « open weight ». OpenAI a refusé de commenter cet élément quand LeMagIT lui a posé la question.
Aussi, le modèle de base, DeepSeek V3, dépend d’une licence propriétaire. Licence qui remet dans les mains de l’usager la responsabilité des violations de données personnelles et propriétaires.
DeepSeek-R1 déjà sur la table de dissection
Cela dit, la transparence concernant la méthode d’entraînement et la disponibilité libre des modèles distillés représenteraient un sérieux coup porté aux fournisseurs de LLM propriétaires. Le marché se serait enfin rendu compte de ce que certains acteurs du monde ouvert clamaient depuis des mois : il serait possible de faire aussi bien voire mieux qu’OpenAI avec des moyens (un peu) plus limités.
« Notre équipe scientifique a commencé à travailler sur la reproduction complète et l’ouverture de R1, y compris les données d’entraînement, les scripts d’entraînement, etc. »
Clément DelangueCofondateur et CEO de HuggingFace
Comme DeepSeek partage ouvertement ses techniques, certains se sont déjà mis en tête de reproduire le processus d’entraînement tout en gagnant en transparence sur la nature des données employées
« Notre équipe scientifique a commencé à travailler sur la reproduction complète et l’ouverture de R1, y compris les données d’entraînement, les scripts d’entraînement, etc. », affirme Clément Delangue, cofondateur et CEO de HuggingFace sur LinkedIn.
« La sortie de DeepSeek-R1 est une aubaine incroyable pour la communauté, mais ils [les chercheurs de DeepSeek] n’ont pas tout publié – bien que les poids du modèle soient ouverts, les ensembles de données et le code utilisé pour entraîner le modèle ne le sont pas », écrivent les chercheurs d’HuggingFace. « L’objectif d’Open-R1 est de construire ces dernières pièces manquantes afin que l’ensemble de la communauté de la recherche et de l’industrie puisse construire des modèles similaires ou meilleurs à l’aide de ces recettes et de ces ensembles de données ».
Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM