
Maksim Samasiuk - Fotolia
Tout comprendre à DeepSeek : les faits derrière le « buzz »
Le lancement des modèles de DeepSeek R1 et V3 ainsi que la réaction des investisseurs ont fait beaucoup de bruits ces deux dernières semaines. Ce bruit génère des questions que LeMagIT a rassemblées ici en tentant d’y répondre le mieux possible.
La semaine dernière, la presse, les secteurs de la technologie et des finances se sont emballés sur le phénomène DeepSeek. Beaucoup de choses ont été dites et écrites sans remettre en doute, en tout cas dans l’immédiat, la communication de l’entreprise chinoise. Dans cet article, vous n’aurez pas la réponse à la question « pourquoi ce qui aurait pu être un épiphénomène a créé un séisme boursier ? », mais les principaux faits pour comprendre l’émergence de cette société et ses LLM sont réunis ici.
Qui est DeepSeek ?
DeepSeek est une startup chinoise fondée en 2023 à Hangzhou (Sud-Ouest de la Chine) par Liang Wenfeng, le cofondateur de High-Flyer.
High-Flyer – un fonds d’investissement spéculatif cherchant à financer la recherche en IA générale – est le propriétaire de DeepSeek. Celui-ci détient un portefeuille d’actifs de 100 milliards de yuans chinois, environ 13 milliards d’euros.
Liang Wenfeng et ses associés sont réputés pour avoir expérimenté l’usage de l’IA et des statistiques avancées pour spéculer sur les marchés financiers.
DeepSeek est-il un nouveau venu ?
Non. Liang Wenfeng et certains membres de High-Flyer ont une formation de chercheurs ou d’ingénieurs en IA. En deux ans, DeepSeek a formé une équipe comprenant 150 à 200 personnes. Si ce n’est pas autant qu’OpenAI ou Google DeepMind, c’est déjà plus que le Français Mistral AI.
DeepSeek était déjà réputé auprès de la communauté IA. Dès novembre 2023, la startup s’est fait remarquer sur la plateforme HuggingFace avec des modèles de langage généralistes (à l’instar de GPT-4), mais surtout avec des LLM spécialisés en mathématiques et en programmation, tels DeepSeek Coder et Math, en février 2024. Avant qu’elle ne devienne un phénomène, ses modèles étaient régulièrement aux premières places des classements des LLM ouverts, maintenus par la communauté, à côté de ceux de Meta, Google, Mistral AI, etc.
Qui sont les concurrents de DeepSeek ?
Justement, les concurrents de DeepSeek sont principalement des acteurs comme OpenAI, Mistral AI, Google DeepMind (la branche de Google qui entraîne des LLM), Meta AI, Anthropic ou encore Cohere. Bien que la sortie des modèles V3 et R1 de DeepSeek ait eu des effets néfastes sur la valeur boursière de Nvidia, elle n’est pas une concurrente directe de l’entreprise dirigée par Jensen Huang.
Nvidia conçoit des puces graphiques – ou GPU – à double usage (modélisation 3D et IA) qu’il fait fabriquer et assembler par des partenaires. Nvidia conçoit également les logiciels associés. Les équipes de Nvidia entraînent parfois des modèles d’IA pour éprouver la pertinence de ces logiciels à destination des entreprises et des fournisseurs de modèles.
Les coûts d’entraînement avancés par DeepSeek sont-ils réalistes ?
À la fin du mois de décembre, DeepSeek a lancé V3, un modèle proche de GPT4o. Il a supposément été entraîné avec un budget de calcul de 5,6 millions de dollars. À titre de comparaison, OpenAI investirait plus de dix fois ce montant à chaque sortie de modèle, quand Anthropic l’évalue au double. Le narratif veut que DeepSeek ait fait aussi bien que ses concurrents avec un budget relativement faible. Ce n’est pas si simple ni vrai.
DeepSeek précise que c’est une estimation du budget informatique nécessaire au calcul des paramètres de son modèle. Le montant annoncé est tout à fait plausible… si DeepSeek louait ses serveurs à des acteurs spécialisés pendant deux ou trois ans, à deux dollars par GPU par heure. Les hébergeurs comme AWS, Microsoft Azure ou Google Cloud n’ont pas d’offres publiques aussi peu chères.
Aussi, le budget n’inclut pas les expérimentations, les salaires des employés et experts, ainsi que les travaux de raffinement des données. Un travail qui n’est pas à la portée de toutes les entreprises. D’autant que les modèles sont souvent entraînés en parallèle. La disponibilité de DeepSeek R1 quelques semaines après la sortie de V3 en est un élément de preuve.
Officiellement, High-Flyer a accès à 11 100 GPU Nvidia A100 d’anciennes générations en plus d’un lot de 2 048 GPU Nvidia H800, des versions amoindries des GPU H100, plus modernes. Le cabinet américain d’analystes indépendant SemiAnalysis croit que ces chiffres sont fortement sous-estimés.
Selon lui, DeepSeek disposerait d’environ 10 000 GPU H800 et 10 000 H100. Elle aurait commandé « beaucoup plus » de H20, une autre variante des H100 prévus pour l’export en Chine. Le coût total des serveurs serait d’environ 1,6 milliard de dollars, dont 944 millions de coûts d’exploitation.
Nvidia n’a pas commenté ces chiffres, mais a laissé entendre que DeepSeek avait strictement respecté le contrôle des exports des puces IA. Avant la restriction signée par le président des États-Unis Joe Biden au début du mois de janvier dernier, les H800 et les H20 pouvaient légalement entrer en Chine, pas les H100.
En savoir plus :
DeepSeek : « cachez ces coûts que je ne saurais voir »
Est-ce une rupture technologique, une « révolution » ?
DeepSeek explique le faible coût de calcul de DeepSeek V3 par l’application d’un ensemble de techniques « innovantes », mais ce n’est pas une révolution ou une rupture technologique.
D’abord, la startup chinoise a opté pour l’architecture « sparse mixture of experts ». Meta entraîne des réseaux de neurones » (un système inspiré du cerveau pour concevoir des IA) « denses ». A contrario, DeepSeek orchestre le traitement des mots et des phrases par des « experts ». Ces experts sont des petits réseaux de neurones qui traitent certains sujets (grammaire, mathématiques, histoire, etc.). Un des experts dispose de connaissances générales et a pour rôle de distribuer les phrases à l’entraînement vers les spécialistes isolés les uns des autres. Il n’est pas nécessaire d’appeler tous les experts en même temps. Cela permet de réduire les coûts de calcul à l’entraînement.
DeepSeek n’est pas la première à utiliser cette architecture. Imaginée par Google, expérimentée par Microsoft et OpenAI, mise en pratique par Mistral AI, Databricks, Snowflake et d’autres : celle-ci a fait ses preuves.
DeepSeek a aussi déployé la prédiction multitoken. Cette approche vise à prédire plusieurs mots à la fois, et non plus un seul. Cela a plusieurs avantages : le temps de calcul est réduit, les réponses sont plus rapides et plus cohérentes. Là aussi, ce n’est pas nouveau. L’on peut par exemple citer le projet Medusa et, plus récemment, les recherches d’une équipe au sein de Meta. Il s’agit toutefois d’une des premières implémentations avérées au cœur d’un modèle de langage aussi gros (685 milliards de paramètres au total).
La troisième approche de DeepSeek consiste à modifier le mécanisme d’attention. Celui-ci détermine l’importance des mots dans une phrase afin que le modèle en comprenne le contexte. Plusieurs mécanismes existent, mais ils occupent beaucoup de mémoire vive vidéo (VRAM). Ici, la startup a développé un moyen de compresser les éléments conservés en mémoire pour réaliser ces calculs d’attention. Ce dispositif nommé Multi-Head Latent Attention est une optimisation du mécanisme d’attention multitête déjà utilisé par bon nombre de modèles, dont Gemma, Llama 2, Mistral 7B, etc.
Enfin, DeepSeek a combiné plusieurs optimisations et l’encodage des traitements à virgule flottante en huit bits, une particularité des cartes de la série H de Nvidia. Ici, DeepSeek n’innove pas. Les modèles étaient auparavant entraînés à l’aide d’un encodage 16 bits (FP16 ou BF16), mais l’encodage en huit bits pour entraîner des modèles serait en cours de généralisation, selon Nvidia.
Quelles différences entre les modèles DeepSeek V3 et R1 ?
Pour comprendre les différences entre les deux familles de modèles, il faut se référer aux phases d’entraînement d’un LLM. Ces modèles de langage subissent d’abord une sorte d’entraînement généraliste à partir de pages et documents issus Web triés sur le volet. On appelle cela le préentrainement. Malgré ce tri, les modèles n’ont pas forcément de filtres et n’ont pas appris précisément la manière de répondre à une question ou d’effectuer certaines tâches, comme dérouler les étapes d’un problème mathématique.
Dans une deuxième phase, le « fine-tuning », les chercheurs « affinent » le modèle pour qu’il se comporte selon leur souhait. Ainsi, DeepSeek V3 Instruct doit répondre aux questions des usagers comme le ferait GPT-4 : de manière la plus utile possible. R1, lui, déroule un raisonnement (du type : « je sais que…, or… donc… ») avant d’en produire un résumé.
Ici, la version préentraînée de DeepSeek V3 (DeepSeek-V3-base) a servi de socle pour obtenir V3 Instruct et les modèles R1.
Quelles différences entre R1 Zero, R1 et les versions « distillées » de R1 ?
R1-Zero est décrit comme une expérimentation, avant l’entraînement de R1. Là encore, DeepSeek a fait évoluer des recettes d’entraînement connues pour rivaliser avec o1 d’OpenAI. Mais il faut distinguer R1 des versions distillées, accessibles via HuggingFace et divers services cloud. R1 est trop imposant pour être lancé directement sur un ordinateur de bureau, même puissant. L’architecture choisie est efficace à l’entraînement, pas lors de l’exécution. La startup précise qu’environ 37 milliards de paramètres sont activés quand l’on pose des questions à R1 ou V3. C’est intéressant quand le modèle est utilisé pour propulser un service mutualisé, par exemple une application Web. Or il faut charger tous les autres paramètres en mémoire. Cela réclame plus de 1 500 Go de VRAM.
Pour les usagers qui souhaitent utiliser les modèles en local ou sur de plus petits serveurs, DeepSeek a entraîné des versions « distillées » de six LLM « open weight » (et pas open source) existants. La distillation de connaissances consiste à transférer le savoir d’un gros modèle à un autre plus petit. Pour ce faire, l’on génère des réponses à l’aide du grand modèle et l’on s’en sert pour entraîner le plus petit tout en « jugeant » ses réponses. Toutefois, les versions distillées n’ont pas la même architecture (ce sont des modèles denses, comme Llama 3) et encore moins les performances de DeepSeek-R1.
En savoir plus :
DeepSeek-R1 : ces flous qui jettent le doute sur sa conception
Deepseek a-t-il siphonné ChatGPT ?
Ici, le bénéfice du doute s’impose. Dans le processus d’entraînement décrit par la startup concernant DeepSeek V3 et R1, les données synthétiques occupent une grande place. Ces données sont générées par des LLM. DeepSeek explique avoir exploité V3 pour générer 800 000 prompts utilisés pour entraîner les versions distillées de R1. Mais OpenAI la soupçonne d’avoir exploité ses modèles à travers ChatGPT pour obtenir des réponses plus pertinentes. DeepSeek aurait utilisé les résultats issus des modèles GPT-4o et o1. OpenAI en aurait même des preuves, qu’elle n’a pas dévoilées publiquement.
Des usagers sur X (ex -Twitter) disent avoir vu le chatbot de DeepSeek, propulsé par V3, répondre à la manière de GPT-4 et de ChatGPT.
Les conditions d’utilisation d’OpenAI interdisent d’utiliser ses modèles pour entraîner des LLM concurrents sous peine de représailles juridiques.
Pour autant, Sam Altman, cofondateur et PDG d’OpenAI, a déclaré auprès de journalistes qu’OpenAI n’avait pas l’intention de porter plainte « pour le moment ».
De fait, la distillation de connaissances est de plus en plus répandue, tandis qu’OpenAI a elle-même entraîné ses modèles sur des données protégées par droits d’auteur.
Par ailleurs, cela pourrait être dû à une contamination « accidentelle ». Les prompts et preprompts de ChatGPT pullulent sur le Web. Or DeepSeek n’a pas fait différemment qu’OpenAI : elle a téléchargé une base de données contenant une archive du Web avant d’en filtrer les données pour entraîner V3 et R1.
Les services de DeepSeek sont-ils moins chers que ceux d’OpenAI ?
Oui, les services de DeepSeek sont moins chers que ceux d’OpenAI et des autres concurrents. Ainsi, l’appel à DeepSeek R1 est 27 fois moins cher que l’utilisation d’o1. Avec o3-mini, OpenAI a considérablement baissé ses coûts, mais ce petit modèle de raisonnement est toujours deux à quatre fois plus cher que R1. La tarification semble résulter d’un choix et d’une équation économique favorable. Les services de cloud chinois sont en moyenne moins chers que ceux des concurrents américains. Par ailleurs, les modèles de DeepSeek seront hébergés sur les clouds d’Alibaba et de Huawei. En ce sens, Huawei s’est rapproché de SiliconFlow, une startup spécialisée dans l’inférence IA. Elle dispose de GPU Nvidia Hopper et d’autres, sans précision.
Les LLM sont-ils plus économes en énergie et en calcul ?
À l’entraînement, oui. Pas à l’exécution. L’architecture de mélange d’experts permet en théorie de traiter davantage de requêtes d’usagers, mais cela consomme autant de ressources de calcul, d’énergie et coûte aussi cher qu’un grand modèle de taille équivalente installé sur les mêmes serveurs. Concernant les modèles distillés, ils consomment – a priori – autant de ressources de calcul et d’énergie et de ressources de calcul que leurs modèles de base. Au minimum, DeepSeek-V3 et R1 ont besoin de deux serveurs dotés de huit GPU H100 (ou équivalent) pour s’exécuter. Mais, dans l’article de recherche consacré à V3, la startup précise qu’elle a testé l’exécution à large échelle pour un service Web. Elle a déployé son LLM sur 44 nœuds (serveurs) dotés de huit GPU H800 chacun. Chaque GPU consomme environ 600 à 700 Watts. Et c’est une configuration minimale.
Est-ce que l’application Web Chat de DeepSeek est aussi bonne que ChatGPT, Claude, etc. ?
Cela dépend de l’usage et des questions. DeepSeek V3 et R1 ont été principalement entraînés en anglais et en chinois. Ils peuvent avoir du mal à répondre dans d’autres langues. Certains usagers préfèrent les réponses du chatbot de DeepSeek, d’autres celles de ChatGPT. Certains ont testé les résultats de DeepSeek Web Chat, ChatGPT et Claude d’Anthropic. ChatGPT était meilleur, suivi de DeepSeek et Claude arrivait en bon dernier, parce qu’ils n’accédaient pas à Internet. Cela varie parce que les LLM continuent d’halluciner, peu importe leur performance. Les variations dépendent des objectifs d’entraînement des modèles et des requêtes des usagers. Si les réponses de DeepSeek V3 et R1 sont bonnes en matière de programmation, cela ne les empêche pas de commettre de grossières erreurs. Les tests semi-automatiques (benchmarks) démontrent surtout que les LLM les plus utilisés derrière ces applications se tiennent dans un mouchoir de poche.
Quels problèmes posent l’application et les API de DeepSeek ?
Les API et le chatbot de DeepSeek sont hébergés sur des serveurs chinois. Or les conditions d’utilisation de la startup sont claires. Les usagers sont responsables des contenus en entrée et en sortie. Si la startup autorise la distillation de connaissances avec ses modèles, l’ensemble des termes du « contrat » tombent sous le droit de la République populaire de Chine. Aussi, la startup peut collecter l’ensemble des données des utilisateurs, entraîner ses modèles à l’aide des prompts des usagers, sans préciser aucune durée de rétention.
L’autorité de la protection des données italienne a déjà interdit l’application. En France, la CNIL se penche sur les traitements de données opérées par l’entreprise chinoise. Pour rappel, il n’y a pas d’adéquation entre le droit français et de l’UE avec le droit chinois. Le traitement des données aux États-Unis est « partiellement » compatible avec le droit européen.
Peut-on utiliser les LLM de DeepSeek en dehors de l’application chinoise ?
Les modèles DeepSeek R1 et leurs variantes distillées sont accessibles à travers plusieurs plateformes cloud. AWS, Snowflake, Databricks, Microsoft Azure, OVHcloud, Perplexity, HuggingFace sont quelques-uns des acteurs à héberger ces LLM sur des serveurs américains et européens. Les tarifs pratiqués sont évidemment plus importants que ceux affichés par DeepSeek. Les modèles distillés peuvent être exécutés en local (même sans connexion Internet) après avoir téléchargé des logiciels comme Ollama, LM Studio, AnythingLLM ou (pour les plus techniques) vLLM. Qwen 2.5 1.5B R1 sera aussi disponible sur PC, via Copilot+ de Microsoft.
Les modèles de DeepSeek sont-ils open source ?
Non. V3 est un modèle propriétaire. Les modèles et les variantes de DeepSeek R1 sont « open weights ». Les paramètres compilés – aussi appelés poids – sont sous licence MIT, une licence conforme à la définition de l’open source. Or, comme la plupart des LLM disponibles, les données et le code utilisés lors de l’entraînement ne sont ni publics ni open source. L’usage libre est possible, mais il y a encore beaucoup de flou juridique concernant les données générées.
Pour en savoir plus :
L’OSI pose enfin la définition de l’IA open source
Les modèles de DeepSeek sont-ils censurés ?
Selon les tests du MagIT, cela dépend des modèles et des plateformes. L’application Web Chat refuse tout simplement de répondre aux questions sensibles en Chine, par exemple les événements de la place Tian’an’men en 1989. Le modèle distillé Qwen 2.5-7B-R1 fournit une réponse partielle reprenant les arguments des autorités chinoises et les éléments factuels diffusés ailleurs. Qwen 2.5 32-R1, depuis HuggingChat répond de manière factuelle, à la manière de ChatGPT (GPT-4o), tandis que Llama 3.1 70B-R1 sur OVHcloud ne veut pas répondre à la question.
Outre la censure, les modèles comportent des biais et propagent des éléments de la désinformation, prévient NewsGuard.
« Un audit de NewsGuard a révélé que le nouveau chatbot IA de la société chinoise DeepSeek avançait les positions du gouvernement de Pékin dans 60 % des cas en réponse à des questions sur les fausses allégations chinoises, russes et iraniennes », affirme l’agence.