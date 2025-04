Quelques jours après l’annonce de nouvelles restrictions sur les exportations de Nvidia vers la Chine, Huawei déclare qu’il commercialisera sous peu ses propres GPU. Censées rendre Pékin autonome dans les calculs d’IA, ces puces pourraient à terme équiper aussi les serveurs des entreprises occidentales qui souffrent de la pénurie des GPU américains.

Fabriqué dès cet été par SMIC, l’usine nationale chinoise qui grave les semiconducteurs, l’Ascend 920 devrait rivaliser avec l’actuel H100 de Nvidia. Il aura une vitesse de calcul estimée à 900 TeraFLOPS en BF16 et une bande passante mémoire de 4 To/s. Soit pas tout à fait les 1979 TeraFLOPS et 3,2 To/s de bande passante de son rival américain.

D’ici là, Huawei proposera dès ce mois de mai des serveurs et des cartes PCIe équipées de l’Ascend 910C. Celui-ci ne délivre qu’une puissance de calcul de 780 TeraFLOPS. Et ses 128 Go de mémoire HBM2E n’offrent pour l’heure qu’une bande passante de 3,2 To/s. En revanche, l’Ascend 910C sera proposé dans des clusters de serveurs de calcul dont la taille dépasse la limite des machines DGX de Nvidia.

Ainsi, l’Ascend 910C n’équivaut en lui-même qu’à 60% de la puissance d’un Nvidia H100. Mais le fait d’en déployer 384 dans le cluster Huawei AI CloudMatrix 384 permettrait d’atteindre une vitesse de calcul 1,7 fois meilleure que celle du tout dernier DGX NVL72 qui comprend 72 GPU Nvidia Blackwell B200. Un B200 a une puissante de 2500 TeraFLOPS et ses 192 Go de mémoire HBM3E ont une bande passante est de 8 To/s.

L’un des avantages des clusters Huawei est manifestement que les serveurs seront déjà reliés entre eux par des fibres en 800 Gbit/s, alors que ceux de Nvidia communiquent encore via des connexions en 400 Gbit/s.

La consommation électrique est en revanche à l’avenant : le cluster de Huawei consommera 559 kWh, contre 145 kWh pour celui de Nvidia. Mais dans ces domaines, la question est malheureusement moins souvent de préserver la planète que de comparer le coût de l’électricité au coût du GPU qui la consomme. Un B200 est censé coûter dans les 40.000 dollars.

Remplacer le H20 de Nvidia Ces puces GPU et les serveurs qui en seront tombent à point pour compenser, en Chine, l’arrêt des importations du GPU H20 de Nvidia. Jusqu’à il y a peu, Nvidia produisait pour le marché chinois un GPU H20, qui n’était autre qu’un H100 bridé a posteriori pour rester dans l’enveloppe de puissance imposée par Washington depuis 2022. Mais, mi-avril, l’administration Trump a conditionné l’export de cette puce bridée à un nouveau droit de licence, lequel reviendrait à une taxe de 5,5 milliards de dollars selon Nvidia. Nvidia a considéré qu’il n’était dès lors plus rentable de vendre des H20 à la Chine. L’administration Trump a ensuite annoncé mettre en pause l’obligation de ce droit de licence, sans doute le temps de trouver un accord avec Nvidia. Selon Huawei, le GPU Ascend 910C, qui tombe à point nommé, aurait exactement le même niveau de performances que le H20. Selon Reuters, Nvidia a vendu au premier trimestre de cette année pour 16 milliards de dollars de GPU H20 aux entreprises chinoises, principalement à ByteDance, Alibaba et Tencent. Sur toute l’année 2024, les ventes de cette puce en Chine ont représenté 17,11 Mds $. L’explosion des ventes du H20 lors du dernier trimestre a deux explications. D’une part, s’agissant ni plus ni moins d’un H100 - monté sur un socle qui en bride la vitesse et qui comporte moins de mémoire HBM que d’ordinaire - le H20 est sorti à quelque mois d’intervalle de la même pénurie qui touchait le H100. Si le circuit commun est fabriqué depuis 2022, il aura fallu attendre la mi-2024 pour que Nvidia parvienne à en produire assez pour satisfaire toutes les demandes, initialement préemptées par les hyperscalers américains. D’autre part, au tout début de cette année, il y a eu une appétence soudaine pour ces puces de la part des géants de l’Internet chinois avec la sortie, et l’incroyable succès, du LLM Deepseek. Pour la première fois, ces géants pouvaient héberger sans aucune restriction l’un des modèles d’IA les plus performants. Mais encore fallait-il avoir assez de GPU à déployer dans leurs datacenters pour le faire tourner.