Natee Meepian - stock.adobe.com

DeepSeek : « cachez ces coûts que je ne saurais voir »

La startup chinoise dit avoir entraîné son LLM DeepSeek v3 avec un budget estimé à 5,57 millions de dollars. Une estimation à nuancer, qui n’inclut pas les traitements de données, ni les efforts de conception de l’architecture.

DeepSeek, startup chinoise fondée en 2023, « bouleverse » le secteur de l’AI, écrit Le Monde. Le spin-off du fonds High-Flyer a dévoilé à la fin du mois de décembre DeepSeek V3. Ce modèle surpasserait les modèles d’IA générative de Meta et d’OpenAI, en particulier Llama 3.1 405B et GPT4o.

Mais le véritable « coup dur », la startup l’aurait porté en lançant DeepSeek-R1 Zero et DeepSeek R1, deux modèles de raisonnement « open weight » (pas open source). Dérivés de DeepSeek V3, ceux-ci sont disponibles gratuitement depuis une application Web et mobiles, ou 27 fois moins chers qu’o1 d’OpenAI. Pire, DeepSeek-R1 égalerait o1.

Qui plus est, la startup a utilisé 800 000 résultats générés par R1 dans divers sujets liés aux sciences et aux mathématiques pour affiner six autres modèles « open weight », disponibles depuis publiquement à travers la plateforme HuggingFace.

Les allégations de la startup ont provoqué hier une chute du cours de Nvidia et une perte en bourse estimée à 589 milliards de dollars.

Une estimation plausible, mais incomplète

Outre les tarifs pratiqués par DeepSeek, ce sont les coûts d’entraînement largement inférieurs aux projets d’OpenAI et de Google qui motiveraient la réaction des investisseurs. DeepSeek « estime » que l’entraînement de DeepSeek V3 a coûté 5,57 millions de dollars. Pour réaliser cette estimation, la startup s’appuie sur un coût horaire de 2 dollars. Sachant qu’elle a entraîné DeepSeek V3 pendant 2,788 millions d’heures GPU, en un peu plus de deux mois.

Au vu des restrictions d’exportation qui pèsent sur la Chine, la startup n’aurait eu accès qu’aux cartes Nvidia H800, des variantes légèrement amoindries des GPU H100 (seul le débit de transfert passe de 1,9 To/s à 1,6 To/s). Ici, elle en aurait utilisé 2048 GPU.

Ce n’est pas la première fois qu’une entreprise entraîne un modèle de grande taille similaire avec un budget restreint. Par exemple, Snowflake a entraîné Arctic, un des LLM qui a inspiré l’architecture de mélange d’experts (Sparse Mixture of Experts, ou SMoE) de DeepSeek V3. Arctic, 480 milliards de paramètres, a été entraîné avec un budget de « moins de 2 millions de dollars » et environ 1 000 GPU H100. A contrario, un modèle dense comme Llama 3.1, celui doté de 405 milliards de paramètres, a poussé Meta à déployer un supercalculateur équipé de 16 000 GPU H100.

Mais un budget de calcul ne dit pas tout.

« À noter que les coûts mentionnés ci-dessus incluent uniquement l’entraînement officiel de DeepSeek-V3, à l’exclusion des coûts associés aux recherches préalables et aux expériences d’ablation sur les architectures, les algorithmes ou les données. »
DeepSeek

« À noter que les coûts mentionnés ci-dessus incluent uniquement l’entraînement officiel de DeepSeek-V3, à l’exclusion des coûts associés aux recherches préalables et aux expériences d’ablation sur les architectures, les algorithmes ou les données », précise pour sa part DeepSeek. Cela n’inclut donc pas les coûts de préparation et d’expérimentation nécessaire à l’émergence de ce modèle et au traitement de données.

Avant d’arriver à l’architecture de DeepSeek V3, la startup a investi dans le développement de DeepSeekMoE, une architecture à mélange épars d’experts « à grains fins ». Ces experts sont des réseaux de neurones spécialisés dans des domaines (langage, histoire, mathématiques, grammaire, etc.) qui ne sont appelés que lorsque l’on a besoin d’eux pour répondre à une question.

La société a validé cette expérimentation en entraînant un modèle de 16 milliards de paramètres. Puis, elle a entraîné DeepSeek V2, un autre modèle SMoE de 232 milliards de paramètres, sur 8 100 milliards de tokens.

Avec DeepSeek V3, elle a employé la même architecture permettant de réduire les temps de calcul, mais elle a aussi modifié le mécanisme d’attention du modèle. Il s’agit de la manière dont le modèle se concentre sur les parties d’un texte ou d’un contenu qu’on lui donne à analyser.

Il y a plusieurs méthodes pour ce faire, plus ou moins efficaces et gourmandes en ressources de calcul. L’approche de la startup nommée Multi Head Latent Attention a pour but de compresser les données (les paires clés-valeurs) en vecteurs optimisés pour la mise en cache dans la mémoire des GPU lors de l’inférence.

À cela s’ajoute, concernant DeepSeek V3, l’usage d’encodage des traitements à virgule flottante en 8 bits. Alors que la plupart des grands modèles de langage sont entraînés en 16 bits, la startup aurait profité de cette précision moindre supportée par la puce GH100 qui anime les H100 et H800. D’autres travaux effectués dans le même sens ont d’abord montré des instabilités avant que des acteurs estiment que cela permettrait de réduire de 30 % le coût d’entraînement. Meta l’a utilisé à l’inférence, mais faisait part de résultats parfois inconsistants avec ses modèles denses.

Toutefois, le rapport budgétaire consacré à DeepSeek V3 est une exception. Un exercice que la société ne réitère pas dans l’article scientifique consacré à DeepSeek-R1 Zero et R1. Et qui n’est pas chiffré dans celui de DeepSeek V2. Son efficience est comparée avec le modèle dense DeepSeek 67B.

“H100 arracher les cheveux” : des doutes sur le respect de l’embargo visant la Chine

De plus, la proximité des disponibilités des LLM DeepSeek v3 et R1 laisse à penser que la startup a parallélisé les entraînements. Cela réclamerait l’usage de plusieurs supercalculateurs ou zones de supercalculateurs.

Quelqu’un a bien dû se procurer les GPU, les déployer, les alimenter, les refroidir, etc. Ce quelqu’un, c’est probablement son propriétaire High-Flyer.

Selon un article publié par des chercheurs de DeepSeek en août, l’équipe a également accès au supercalculateur Fire-Flyer AI, financé par le fonds. Celui-ci est doté de 10 000 GPU Nvidia A100 achetés avant l’embargo.

Selon Reuters, au lancement des H800, Nvidia et ses partenaires vendaient des serveurs équipés de huit GPU au prix recommandé de 2 millions de yuans chinois, environ 275 000 dollars. En clair, se procurer 2 048 GPU H800 aurait demandé de dépenser environ 70 millions de dollars avant les restrictions d’exportation plus strictes imposées en fin de mandat par le Président Biden. Et sans compter les variations tarifaires.

Certains, comme Elon Musk, ne croient pas à la capacité de calcul présentée par la startup. Alexandr Wang, fondateur et CEO de Scale AI, confirme les résultats des parangonnages de DeepSeek sur CNBC Television, mais affirme qu’elle a outrepassé les restrictions en vigueur pour s’équiper. « De ce que je comprends, DeepSeek a accès à 50 000 GPU H100 dont ils ne peuvent pas parler au vu de l’embargo placé par les États-Unis. Seulement, à l’avenir, ils seront limités par les contrôles d’exportation en place ».

« DeepSeek illustre la façon dont de nouveaux modèles peuvent être créés [...], en s’appuyant sur des modèles largement disponibles et sur des calculs entièrement conformes au contrôle des exportations. »
Porte-parole Nvidia

« DeepSeek est une excellente avancée en matière d’IA et un parfait exemple de mise à l’échelle de la durée des tests. Le travail de DeepSeek illustre la façon dont de nouveaux modèles peuvent être créés à l’aide de cette technique, en s’appuyant sur des modèles largement disponibles et sur des calculs entièrement conformes au contrôle des exportations », répond indirectement un porte-parole de Nvidia. Il laisse ainsi entendre que le géant fabless n’aurait pas laissé partir dans la nature 50 000 puces haut de gamme.

« L’inférence nécessite un nombre important de GPU NVIDIA et un réseau de haute performance », ajoute-t-il.

En matière d’inférence, déployer DeepSeek V3 et R1 réclame d’utiliser deux clusters dotés de huit H100 ou H800 chacun. Si 37 milliards de paramètres sont activés, il faut tout de même charger les 671 milliards de paramètres en mémoire. Ainsi, V3 consomme une base de 600 Go de VRAM auquel il faut ajouter 100 à 300 Go de VRAM suivant la tâche à effectuer. Cela représente un budget de calcul raisonnable pour un éditeur ou un fournisseur cloud. C’est toutefois coûteux à l’échelle.

Si la startup chinoise a mentionné une cyberattaque d’envergure, elle pourrait être tout simplement victime de son succès. « Selon Sensor Tower, l’application de DeepSeek a été téléchargée plus de 3 millions de fois depuis son lancement […] DeepSeek AI a enregistré près de 300 % de téléchargements en plus par rapport à Perplexity et ChatGPT », lit-on dans un communiqué de presse du fournisseur de données sur l’économie numérique.

Pour rappel, le budget de calcul d’OpenAI aurait atteint 5 milliards de dollars l’année dernière, dont la majorité est consacrée à l’inférence de ChatGPT. Et le concurrent américain de DeepSeek ne l’a jamais confirmé, mais plusieurs éléments laissent à penser qu’OpenAI utilise déjà une architecture « mélange épars d’experts ».

Des traitements manquants

Quant à la question du traitement de données, il semble que DeepSeek ait pu réaliser des économies en ne filtrant pas systématiquement certaines informations.

Précisons-le. Si DeepSeek R1 Zero et R1 sont des modèles « open weight », DeepSeek V3, leur « professeur », ne l’est pas. Il dépend d’une licence propriétaire qui stipule : « ce modèle peut contenir des informations personnelles et des œuvres protégées par des droits de propriété intellectuelle. Vous vous engagez à respecter les lois et règlements applicables au traitement des informations personnelles et à l’utilisation de ces œuvres ». En clair, la startup se décharge du bon respect des droits d’auteurs et du RGPD sur les utilisateurs de DeepSeek V3. Des propriétés qui risquent de se retrouver dans les LLM R1, dont le code et les poids sont sous licence MIT (pas les données).

Enfin, notons que plus de 200 chercheurs sont cités dans les articles relatifs à l’entraînement de DeepSeek V3 et R1. Même avec des salaires inférieurs à ceux pratiqués aux États-Unis, il faut bien financer leur travail.

Pour approfondir sur IA appliquée, GenAI, IA infusée