Les LLM DeepSeek-R1 et V3 sont « frugaux » à l’entraînement, pas à l’usage
DeepSeek a pu réaliser des économies lors de l’entraînement, mais à l’usage ses modèles R1 et V3 ne sont pas « frugaux », prévient le CEO d’Ekimetrics. Un phénomène qui s’explique par l’architecture choisie par la startup.
La startup chinoise a présenté ses grands modèles de langage comme peu coûteux à l’entraînement. Bien qu’ils soient dotés de 671 milliards de paramètres, ils ont pu être entraînés sur un lot de 2048 GPU Nvidia H800 (des H100 modifiés pour l’export en Chine) pendant deux mois.
Cela s’explique en partie par le choix de l’architecture Sparse Mixture of Experts (SMoE) – présenté par LeMagIT avant l’émergence de ChatGPT –, et au recours à l’encodage des nombres à virgule flottante FP8.
« Le coût de conception serait au moins dix fois supérieur à celui de l’entraînement. »
Baptiste BouzigeCEO, Ekimetrics
« Le consensus parmi les experts est que le coût de l’entraînement affiché est trompeur, car il ne reflète pas l’ensemble des dépenses réelles. En particulier, le coût de conception serait au moins dix fois supérieur à celui de l’entraînement », constate Jean-Baptiste Bouzige, CEO d’Ekimetrics. « Cela dit, ces montants restent relativement faibles comparés aux investissements d’OpenAI pour une mise en production ».
Un « malentendu » à dissiper
Cela cache également un « malentendu », selon l’expert.
« Actuellement, beaucoup affirment que ces modèles sont frugaux, alors qu’en réalité, ce qui frappe, c’est la dissociation entre le coût économique et la consommation énergétique », affirme-t-il.
« Ce qui frappe, c’est la dissociation entre le coût économique et la consommation énergétique. »
Jean-Baptiste BouzigeCEO, Ekimetrics
Pour rappel, les grands modèles de langage dotés d’une architecture SMoE n’activent qu’une partie de leurs paramètres à l’exécution. Ici, DeepSeek-R1 n’en déclenche que 37 milliards. Or, il est nécessaire de conserver tous les paramètres en mémoire VRAM pour que le modèle les appelle dynamiquement, suivant les besoins. Charger 671 milliards de paramètres en mémoire – 688 Go environ – réclame 600 Go de VRAM. Pour rappel, un cluster de huit GPU Nvidia H100 en dispose de 640 à 756 Go (il faut compter 80 ou 94 Go de VRAM suivant la variante). Pour que le modèle réponde dans des conditions optimales, il lui faut 100 à 300 Go de VRAM supplémentaires. Logiquement, cela demande d’interconnecter deux clusters dotés de huit GPU H100 chacun. Chaque carte a un TDP de 700 watts, ce qui n’inclut pas les ressources consommées par les processeurs du serveur.
« Concrètement, l’inférence consomme autant qu’avant », résume Jean-Baptiste Bouzige. La communauté open source cherche déjà des moyens d’exécuter ces modèles dans des conditions acceptables. Certains exploitent des configurations plus légères, en utilisant davantage d’instances. Certains tentent de charger les paramètres en mémoire vive (RAM) au prix d’une lenteur excessive.
Les fournisseurs s’alignent pour héberger DeepSeek-R1 dans le cloud ou sur site
L’opération est plus rentable pour un fournisseur de services cloud. De fait, il peut distribuer le modèle sur davantage de clusters GPU afin de traiter les demandes des usagers en parallèle.
Une promesse déjà faite par Snowflake.
« En apportant les modèles de DeepSeek […] dans la plateforme Snowflake, nous pouvons nous assurer que les clients bénéficient d’une IA facile, efficace et surtout fiable, qui bénéficie de la sécurité robuste et des garde-fous de gouvernance de Snowflake – sans que les données ne quittent jamais l’environnement protégé de Snowflake », déclare Baris Gultekin, head of AI at Snowflake, dans un communiqué de presse. « Les dernières réalisations de DeepSeek soulignent le rôle essentiel d’une plateforme de données solide pour permettre une innovation sécurisée en matière d’IA à grande échelle ».
AWS affirme que ses clients peuvent les déployer via une fonction d’import « personnalisée ». IBM l’utilisera pour déployer R1 sur sa plateforme Watsonx.ai.
« Avec DeepSeek, la réduction des coûts transforme la problématique : ce n’est plus une question de moyens, mais de responsabilité. »
Jean-Baptiste BouzigeCEO, Ekimetrics
DeepSeek a parfaitement conscience de cette limite. C’est pourquoi elle propose des versions distillées de DeepSeek R1. Ces LLM plus petits peuvent être déployés en cloud ou sur une machine en local. Toutefois, ils sont moins performants que leur grand frère. HuggingFace et Dell viennent justement d’annoncer un partenariat pour héberger sur site la version distillée de DeepSeek R1 sur Qwen 2.5 32B sur site. C’est le plus performant d’entre eux.
« Avec DeepSeek, la réduction des coûts transforme la problématique : ce n’est plus une question de moyens, mais de responsabilité », considère Jean-Baptiste Bouzige. « Jusqu’ici, les entreprises étaient freinées par la disponibilité des GPU et le coût élevé de l’inférence. En baissant ces barrières, la responsabilité dans l’usage des LLM devient cruciale, car sans régulation, les intérêts économiques et écologiques risquent de diverger ».
Une démocratisation souhaitée par Nvidia
« Pratiquement tous les LLMs sont actuellement entraînés en FP8. Ils passeront également au FP4 avec [les puces] Blackwell. »
Porte-parole de Nvidia
Les investisseurs ont vu d’un mauvais œil pour Nvidia l’arrivée des modèles de DeepSeek. Il est pourtant un acteur clé de leur émergence. C’est lui qui a développé l’encodage des traitements en huit bits (FP8) pour les puces de la famille Hopper. La startup chinoise a ensuite réalisé bon nombre d’optimisations pour profiter de cette compression. Elle n’est pas la seule à prendre cette voie.
« Pratiquement tous les LLMs sont actuellement entraînés en FP8. Ils passeront également au FP4 avec [les puces] Blackwell », explique un porte-parole de Nvidia auprès du MagIT. Et de donner l’exemple d’iGenius, un fournisseur italien de LLM qui a entraîné Colosseum, un modèle de 355 milliards de paramètres avec 3000 GPU en utilisant l’encodage FP8.
Dans la logique de Nvidia, il est tout à fait dans son intérêt de démocratiser l’entraînement de LLM. C’est la clé de son succès ces quatre dernières années.
Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM