Olivier Le Moal - stock.adobe.co

LLM : la concurrence chinoise gagne du terrain

Si OpenAI, Anthropic et Google sont les fournisseurs les plus en vue pour les entreprises, les acteurs chinois ne se contentent pas de gagner des places sur les classements scientifiques. Ils visent les mêmes usages que leurs homologues américains. C’est le cas de Zai et de Moonshot AI.

Dans le sillon de DeepSeek, deux startup chinoises ont lancé de grands modèles de langage open weight capables de rivaliser avec ceux d’Anthropic, d’OpenAI et de Google.

D’abord, Moonshot AI a présenté fin janvier Kimi K2.5, un LLM multimodal basé sur l’architecture Mixture of Experts de DeepSeek V3. Entraîné sur 15 000 milliards de tokens, il est doté de 1 000 milliards de paramètres, mais en active seulement 32 milliards. Sa fenêtre de contexte atteint 256 000 tokens. Moonshot AI dit avoir travaillé sur l’optimisation de la jointure des données textuelles et visuelles. Au lieu d’associer ces informations dans les dernières phases de l’entraînement, le fournisseur a intégré des images en quantité minoritaire dès le premier niveau de pré-entraînement, puis en a augmenté progressivement le volume.

La méthode DeepSeek fait des émules

Lors du post-entraînement, et plus particulièrement du lancement du fine-tuning supervisé, les données visuelles sont uniquement représentées de manière programmatique et sous forme de texte, en utilisant le terminal iPython. « Cette activation “sans vision” permet divers comportements de raisonnement, y compris des opérations au niveau des pixels, telles que l’estimation de la taille des objets par binarisation et comptage, et se généralise à des tâches visuelles, telles que la localisation d’objets, le comptage et l’OCR », assurent les chercheurs de la startup. Moonshot AI a complété cette phase par un apprentissage via renforcement, afin de réassocier les textes et les images et renforcer certains comportements, comme l’énumération d’objets dans une photo, la programmation à partir d’images, ou l’interprétation d’un diagramme.

L’autre priorité de la startup avec Kimi K2.5 est le développement « d’essaims d’agents IA ». Elle a développé le framework Agent Swarm afin d’apprendre à son modèle à mieux décorréler le rôle de l’orchestrateur et des sous-agents IA.

« Nous entraînons d’abord l’orchestrateur en utilisant des sous-agents de petite taille [aux poids figés] avant de passer à des modèles plus importants », décrivent les chercheurs. « Notre framework d’apprentissage par renforcement permet également d’ajuster dynamiquement les ratios d’instances d’inférence entre les sous-agents et l’orchestrateur, maximisant ainsi l’utilisation des ressources sur l’ensemble du cluster ».

Le framework inclut un mécanisme tripartite qui récompense l’optimisation de la parallélisation, la complétion des sous-tâches et les résultats.

Zhipu AI – que l’on retrouve sous le nom Zai –, elle, a publié le 11 février dernier GLM-5, un modèle de raisonnement (text-to-text) de 744 milliards de paramètres qui n’active que 40 milliards de paramètres à l’inférence. Entraîné sur 28 500 milliards de tokens, il utilise également le mécanisme d’attention épars et le mix d’experts conçu par DeepSeek. Il dispose d’une fenêtre de contexte de 205 000 tokens. Pour l’apprentissage par renforcement de son modèle, l’équipe de Zai a décliné sa propre version de Slime, un framework de post-entraînement asynchrone basé sur Megatron de Nvidia et SGlang. Celui-ci permettrait d’améliorer l’efficience de cette phase pour de très grands modèles et donc d’accélérer les itérations.

GLM-5 et Kimi k2.5, les meilleurs modèles open weight, selon Artificial Analysis

Zai n’a pas encore publié son rapport technique et ne fait pas la lumière sur les détails de l’entraînement. Toutefois, la société rapporte qu’elle s’est concentrée sur le raisonnement, la programmation, les tâches agentiques et l’exécution de longue durée. Elle prétend également que GLM-5 peut générer des documents financiers, des menus, des préparations d’examens, etc., au format docx, PDF ou XLSX. Moonshot AI a testé son modèle sur des tâches similaires.

Sur l’Intelligence Index du cabinet Artificial Analysis, GLM-5 se place en troisième position derrière Claude Opus 4.6 et GPT-5.2, mais devant Gemini 3 Pro. Kimi K2.5 suit de près : il s’intercale entre Gemini 3 Pro et Gemini 3 Flash. GLM-5 et Kimi 2.5 s’en sortent très bien en programmation et dans l’exécution des tâches agentiques.

D’après Artificial Analysis, GLM-5 est le modèle open weight le plus performant de sa catégorie. Il réduit fortement l’écart entre les modèles propriétaires et open weight.

« Avec GLM-5, les modèles open weight franchissent un nouveau palier de performance dans le traitement de tâches professionnelles à retombées économiques tangibles », ajoutent les analystes.

Problème, outre son architecture plus adaptée aux infrastructures distribuées (GLM-5 pèse 1,5 To et est encodé par défaut en BF16), il est cher à exécuter, car verbeux. Là où durant les tests, Claude Opus 4.6, déjà très bavard, a produit 58 millions de tokens, GLM-5 en a généré 110 millions. Cela représente malgré tout 60 millions de tokens de moins que GLM-4.7.

Kimi K2.5 obtient la deuxième place du classement open source, mais s’avère également très verbeux.

Les deux modèles requièrent a minima un cluster doté de huit GPU Nvidia H200 (141 Go de VRAM par puce). Il est possible d’utiliser de plus petits serveurs, voire des stations de travail, mais il convient de maîtriser la pile logicielle associée : vLLM, SGLang et KTransformers, ou xLLM. La combinaison SGLang-KTransformers permet d’équilibrer la charge entre la VRAM et la RAM. Avec la pénurie actuelle, il semble difficile pour les entreprises de s’équiper en serveurs adaptés.

Les startup chinoises dépendent encore de Nvidia

Ces LLM open weight sont jusqu’à six fois moins chers que Claude Opus 4.6 via API. Toutefois, les fournisseurs de LLM chinois ciblent d’abord le marché local et asiatique. Ils commencent à prendre en charge des puces d’inférence IA développées par leurs compatriotes équipementiers, dont celles de Huawei Ascend, de Moore Threads et de Cambricon, en sus des GPU Nvidia Hopper et Blackwell. Tout modèle confondu, Zhipu AI dit prendre en charge plus de 40 puces IA chinoises.

Kimi K2.5 a été entraîné sur une ferme de Nvidia H800, des versions édulcorées des H100 vendus sur le marché chinois.

Zhipu AI ne détaille pas l’infrastructure utilisée pour former GLM-5, mais il y a fort à parier que l’entreprise chinoise utilise encore des puces Nvidia. L’affirmation selon laquelle ce modèle aurait été entraîné exclusivement sur 100 000 puces Huawei semble peu crédible. Ni la startup ni le fabricant n’ont confirmé cette information.

Oui, Zai a entraîné un modèle de diffusion doublé d’un LLM (text-to-image) sur des serveurs Huawei Ascend Atlas 800T A2. Toutefois, le LLM compte 9 milliards de paramètres, et le décodeur d’image 7 milliards de paramètres, loin des 744 milliards de paramètres de GLM-5.

Zhipu AI, sur la liste du département du Commerce américain des entreprises interdites d’accès aux GPU Nvidia les plus récents, se garde bien de mentionner les équipements utilisés lors de l’entraînement dans ses précédents rapports techniques consacrés à GLM-4.5 et 4.7. Pour l’inférence, elle évoque en premier lieu les H100 et H20, une autre version inférieure de la H100 pour le marché chinois. Dans la documentation de Slime, les chercheurs énumèrent la prise en charge des H100, H200 et B200 de Nvidia. Le support des puces AMD MI et MI X serait partiel.

« Nos modèles d’IA sont conçus et/ou optimisés pour fonctionner sur des systèmes accélérés par des GPU Nvidia », peut-on lire sur la fiche Nvidia NIM de GLM-5.

Principalement disponible chez les hébergeurs chinois, Kimi K2.5 est par ailleurs accessible sur AWS et Microsoft Azure. Comme GLM-4.7 est disponible chez les hyperscalers, il y a fort à parier que GLM-5 soit ajouté à leur catalogue.

De son côté, Artificial Analysis observe une montée en puissance des fournisseurs de LLM sud-coréens. LG, SK Telecom et Upstage sont soutenus par le gouvernement. Leurs modèles grimpent eux aussi dans les classements, ce qui ferait de la Corée du Sud la troisième « nation IA » derrière la Chine et les États-Unis.

Pour approfondir sur IA appliquée, GenAI, IA infusée