
GPU : Huawei lance ses alternatives aux puces de Nvidia
En Chine, le constructeur va successivement lancer une puce moins puissante que le H100, mais livrée dans des machines plus performantes que les derniers clusters de Nvidia, puis un modèle Ascend 920 qui égale ses performances.
Quelques jours après l’annonce de nouvelles restrictions sur les exportations de Nvidia vers la Chine, Huawei déclare qu’il commercialisera sous peu ses propres GPU. Censées rendre Pékin autonome dans les calculs d’IA, ces puces pourraient à terme équiper aussi les serveurs des entreprises occidentales qui souffrent de la pénurie des GPU américains.
Fabriqué dès cet été par SMIC, l’usine nationale chinoise qui grave les semiconducteurs, l’Ascend 920 devrait rivaliser avec l’actuel H100 de Nvidia. Il aura une vitesse de calcul estimée à 900 TeraFLOPS en BF16 et une bande passante mémoire de 4 To/s. Soit pas tout à fait les 1979 TeraFLOPS et 3,2 To/s de bande passante de son rival américain.
D’ici là, Huawei proposera dès ce mois de mai des serveurs et des cartes PCIe équipées de l’Ascend 910C. Celui-ci ne délivre qu’une puissance de calcul de 780 TeraFLOPS. Et ses 128 Go de mémoire HBM2E n’offrent pour l’heure qu’une bande passante de 3,2 To/s. En revanche, l’Ascend 910C sera proposé dans des clusters de serveurs de calcul dont la taille dépasse la limite des machines DGX de Nvidia.
Ainsi, l’Ascend 910C n’équivaut en lui-même qu’à 60% de la puissance d’un Nvidia H100. Mais le fait d’en déployer 384 dans le cluster Huawei AI CloudMatrix 384 permettrait d’atteindre une vitesse de calcul 1,7 fois meilleure que celle du tout dernier DGX NVL72 qui comprend 72 GPU Nvidia Blackwell B200. Un B200 a une puissante de 2500 TeraFLOPS et ses 192 Go de mémoire HBM3E ont une bande passante est de 8 To/s.
L’un des avantages des clusters Huawei est manifestement que les serveurs seront déjà reliés entre eux par des fibres en 800 Gbit/s, alors que ceux de Nvidia communiquent encore via des connexions en 400 Gbit/s.
La consommation électrique est en revanche à l’avenant : le cluster de Huawei consommera 559 kWh, contre 145 kWh pour celui de Nvidia. Mais dans ces domaines, la question est malheureusement moins souvent de préserver la planète que de comparer le coût de l’électricité au coût du GPU qui la consomme. Un B200 est censé coûter dans les 40.000 dollars.
Remplacer le H20 de Nvidia
Ces puces GPU et les serveurs qui en seront tombent à point pour compenser, en Chine, l’arrêt des importations du GPU H20 de Nvidia.
Jusqu’à il y a peu, Nvidia produisait pour le marché chinois un GPU H20, qui n’était autre qu’un H100 bridé a posteriori pour rester dans l’enveloppe de puissance imposée par Washington depuis 2022. Mais, mi-avril, l’administration Trump a conditionné l’export de cette puce bridée à un nouveau droit de licence, lequel reviendrait à une taxe de 5,5 milliards de dollars selon Nvidia.
Nvidia a considéré qu’il n’était dès lors plus rentable de vendre des H20 à la Chine. L’administration Trump a ensuite annoncé mettre en pause l’obligation de ce droit de licence, sans doute le temps de trouver un accord avec Nvidia. Selon Huawei, le GPU Ascend 910C, qui tombe à point nommé, aurait exactement le même niveau de performances que le H20.
Selon Reuters, Nvidia a vendu au premier trimestre de cette année pour 16 milliards de dollars de GPU H20 aux entreprises chinoises, principalement à ByteDance, Alibaba et Tencent. Sur toute l’année 2024, les ventes de cette puce en Chine ont représenté 17,11 Mds $.
L’explosion des ventes du H20 lors du dernier trimestre a deux explications. D’une part, s’agissant ni plus ni moins d’un H100 - monté sur un socle qui en bride la vitesse et qui comporte moins de mémoire HBM que d’ordinaire - le H20 est sorti à quelque mois d’intervalle de la même pénurie qui touchait le H100. Si le circuit commun est fabriqué depuis 2022, il aura fallu attendre la mi-2024 pour que Nvidia parvienne à en produire assez pour satisfaire toutes les demandes, initialement préemptées par les hyperscalers américains.
D’autre part, au tout début de cette année, il y a eu une appétence soudaine pour ces puces de la part des géants de l’Internet chinois avec la sortie, et l’incroyable succès, du LLM Deepseek. Pour la première fois, ces géants pouvaient héberger sans aucune restriction l’un des modèles d’IA les plus performants. Mais encore fallait-il avoir assez de GPU à déployer dans leurs datacenters pour le faire tourner.
Mais comment la Chine parvient-elle à graver des puces aussi perfectionnées ?
Reste un mystère : par quel miracle le fondeur chinois SMIC est-il parvenu à graver l’Ascend 910C avec une finesse de 7nm et comment va-t-il réussir à graver l’Ascend 920 avec une finesse, cette fois-ci, selon Huawei, de 6 nm ? SMIC n’a normalement pas accès aux machines pour le faire. Elles sont fabriquées par le hollandais ASML qui a interdiction d’exporter ses appareils de pointe vers la Chine.
Selon nos confrères de Datacenter Dynamics, TSMC, le fondeur taiwanais qui grave les semiconducteurs les plus avancés au monde, aurait alerté Washington en octobre dernier sur une commande suspecte. L’un de ses clients lui aurait demandé la fabrication d’une puce qui ressemblait étrangement à un Ascend 910B. L’Ascend 910B est la version précédente de l’actuel 910C et la nouveauté de ce dernier est d’avoir un double circuit.
L’enquête des autorités américaines vient de déterminer que le commanditaire de cette puce était Sophgo, une startup chinoise censée développer des processeurs Open source Risc-V. Au moment où les USA ont été mis au courant de cette fabrication suspecte, TSMC avait a priori déjà fabriqué et livré plus de 2 millions de circuits, selon un rapport du CSIS (Center for Strategic & International Studies), le cabinet d’études du Sénat américain.
À l’heure où nous écrivons ces lignes, les autorités américaines auraient demandé à TSMC de payer une amende record de 1 milliard de dollars pour avoir illégalement fabriqué des puces pour le compte de Huawei. La commande, elle, aurait rapporté à TSMC l’équivalent de 500 millions de dollars.
TSMC se défend en expliquant qu’il lui est particulièrement difficile de déterminer qui sont ses clients. En l’occurrence, les commandes passées à TSMC se font rarement en direct. Le fondeur dispose de chaînes de fabrication unitaires où les géants du numérique doivent attendre leur tour pour faire produire leurs puces. Il est donc d’usage de passer par un système opaque de courtiers. Ceux-ci réservent des créneaux et les revendent à toute une cascade d’intermédiaires, qui jonglent avec les délais incertains de concepteurs de puces.
Ajoutons à cela que le parcours logistique est lui aussi propice à la dissimulation des marques. Si les circuits GPU sont habituellement gravés à Taiwan, ils utilisent des mémoires HBM gravées, elles, en Corée, par SK Hynix ou Samsung. Le tout doit ensuite être assemblé quelque part. Or, il se trouve qu’il existe encore des sous-traitants qui se chargent de cette activité, en Chine.