Sergey Nivens - Fotolia

DeepSeek-R1 : pourquoi les réponses des LLM distillés semblent moins « censurées »

Techniquement, il faut parler de biais, mais c’est la procédure d’entraînement spécifique appliquée par la startup chinoise qui explique que les plus petits modèles de la collection R1 sont moins affectés par des phénomènes apparentés à de la censure. Les biais, mésinformations et désinformations sont plus répandus qu’on ne le croit dans les réponses des LLM.

Dans son article consacré aux faits sur les modèles R1 et V3 de DeepSeek, LeMagIT rapportait son expérience concernant la « censure » de certains résultats. Une fois interrogé sur les points sensibles de l’histoire moderne chinoise, R1 préférait ne pas répondre quand les versions distillées du LLM proposaient des informations plus ou moins factuelles.

« À la lecture des benchmarks référencés dans le rapport technique de DeepSeek R1, l’on constate que sur des questions de connaissances générales en chinois, R1 affiche une baisse de performances par rapport à ses prédécesseurs », rapporte Florian Arthur, directeur data science, responsable des pratiques NLP et LLM chez Quantmetry, une filiale de Capgemini Invent. « Les chercheurs de DeepSeek expliquent ces résultats par le fait que le modèle [R1] préfère ne pas répondre ».

Des traitements différenciés entre DeepSeek-R1 et ses variantes

Un phénomène directement lié au processus d’entraînement de DeepSeek R1. Ce modèle est lui-même une déclinaison de DeepSeek V3. « DeepSeek V3 n’est pas trop biaisé, ou “censuré”, si l’on veut », note Florian Arthur.

L’entraînement de R1 a débuté par une phase de fine-tuning, une première phase d’apprentissage par renforcement, appliquée sur la base de DeepSeek V3. « Lors de cette phase, R1 est entraîné sur des données liées aux mathématiques, à la logique. Là encore, il est possible d’obtenir des réponses factuelles », remarque le data scientist. « Dans une deuxième phase d’apprentissage par renforcement, le modèle est entraîné à jouer des rôles, à “raisonner”. C’est aussi lors de cette phase, comme le font OpenAI et Meta que les retours (feed-backs) des humains sont utilisés pour ne pas générer de contenus violents ou toxiques, etc. », poursuit-il.

C’est donc à ce moment-là que le modèle est invité à botter en touche pour ne pas répondre à certaines questions. Ce qui inclut les sujets sensibles pour les autorités chinoises, en déduit Florian Arthur.

Alors, pourquoi les résultats ne sont-ils pas aussi consistants avec les modèles distillés ? Pour entraîner les versions distillées de DeepSeek, R1 n’a pas utilisé le modèle final, mais un « checkpoint » plus ancien. Ce point de sauvegarde antérieur du modèle n’a pas forcément subi toute la deuxième phase d’apprentissage par renforcement. Mais il y a également une deuxième subtilité.  

« La distillation de connaissances consiste à générer des exemples avec un modèle professeur permettant d’entraîner un autre modèle, élève », rappelle Florian Arthur. « L’on peut demander au modèle professeur de générer des exemples sur les tâches de mathématiques, de programmation, etc. Mais si l’on ne génère pas spécifiquement des données synthétiques pour éviter la production de contenus toxiques, dangereux ou sensibles, ces exemples ne sont pas dans le contenu de la distillation et, donc, ces connaissances ne seront pas transmises au modèle élève ».

Des techniques d’entraînement à double tranchant

Ainsi, les versions distillées des modèles R1 n’ont pas appris tous les biais et éléments de censure présents dans la version accessible à travers l’application de l’acteur chinois. La startup précise d’ailleurs que l’entraînement des versions distillées a été fait en seulement deux passes sur le jeu de données en grande partie synthétique.

« L’on peut considérer cela comme de la censure, mais il s’agit d’appliquer les mêmes techniques utilisées pour éviter que les modèles produisent des contenus dangereux », signale Florian Arthur. C’est également un moyen pour rendre les modèles moins sensibles aux « jailbreaks ». Le jailbreak consiste à faire « dire » tout et n’importe quoi à un modèle, mais également à ouvrir des portes d’accès aux systèmes sous-jacents, par exemple pour récupérer les données des utilisateurs. L’équipe de sécurité de Cisco a prouvé que tous les LLM testés par ses soins, et principalement DeepSeek-R1, sont sensibles aux phénomènes.

« GPT-4o est tout de même bien meilleur que GPT-4 face aux jailbreaks, tandis que les derniers modèles de Meta sont capables de répondre par des blagues aux tentatives de piratage », nuance Florian Arthur. Son laboratoire au sein de Capgemini Invent expérimente également ces phénomènes.

Biais, désinformation, mésinformation : un sujet qui affecte tous les LLM

Par ailleurs, les problèmes de biais, de désinformation et de mésinformation ne sont pas spécifiques à DeepSeek. La startup française Giskard, en association avec Google DeepMind, a annoncé la création du benchmark ouvert PHARE (« Potential Harm Assessment & Risk Evaluation »). Ce parangonnage multilingue vise à évaluer les performances de différents LLM de plusieurs fournisseurs (OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, Alibaba et DeepSeek) en anglais, français et espagnol. « Les LLM sont souvent régulièrement testés en langue anglaise, mais il manque des tests dans d’autres langues », explique Alex Combessie, cofondateur et CEO de Giskard, auprès du MagIT. « Nous commençons par les langues que nous maîtrisons le mieux en interne ».

« Alors que les modèles récents font preuve d’une plus grande précision dans la formulation d’affirmations factuelles, leur capacité à identifier et à contrer la désinformation reste incohérente ».
Matteo DoraChercheur en machine learning, Giskard

Pour l’instant, Giskard et Google DeepMind éprouvent les LLM sur deux dimensions : la vérification des faits et la diffusion de mésinformations. Plus tard, ils s’attaqueront aux sujets des biais, des contenus dangereux et d’autres aspects liés à la sécurité. Les deux partenaires n’ont pas fini leurs tests : les modèles de raisonnement comme DeepSeek, sans une grosse infrastructure, mettent beaucoup de temps à répondre. Néanmoins, les résultats préliminaires ne sont pas en faveur des fournisseurs.

« Étant donné la nature préliminaire de ces résultats, nous avons décidé de garder les noms des modèles anonymes afin d’éviter des comparaisons injustes », écrit Matteo Dora, chercheur en machine learning chez Giskard, dans un billet de blog. « L’évaluation révèle une tendance notable dans les capacités des modèles », poursuit-il. « Alors que les modèles récents font preuve d’une plus grande précision dans la formulation d’affirmations factuelles, leur capacité à identifier et à contrer la désinformation reste incohérente ».

Ces réponses sont suffisamment marquantes pour que Giskard ait décidé d’agir comme un hacker blanc. La startup entend prévenir les fournisseurs concernés afin qu’ils corrigent les problèmes identifiés avant que les résultats ne soient publiés.

« C’est plutôt intelligent de ne pas laisser les fournisseurs se faire lyncher en place publique », considère le directeur data science chez Capgemini Invent. « Il faut d’abord comprendre si les problèmes détectés sont dus aux données d’entraînement ou si c’est un choix délibéré du fournisseur de LLM. Il arrive également qu’il y ait des biais positifs », note-t-il.

De son côté, Capgemini a interdit l’usage des modèles de DeepSeek en interne et ne les déploie pas chez ses clients.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM