Puces pour l’IA : la production menace de ne pas suivre la demande

Les États occidentaux ont décidé d’investir des milliards pour déployer sur leurs territoires d’immenses quantités de GPU, tandis que les géants d’Internet réservent en avance la majorité de la production de Nvidia. Pendant ce temps, les usines ne fabriquent pas plus.

Y aura-t-il assez de GPU pour tout le monde ? Alors que la France et l’Union européenne viennent chacune d’évoquer des déploiements massifs d’infrastructures de calcul pour l’intelligence artificielle – en réponse au projet géant Stargate des USA qui mettra en opération au moins 2 millions de GPU –, Google et Meta ont déjà réservé un tiers des puces que Nvidia est censé pouvoir produire cette année. L’année dernière, les majors d’Internet avaient déjà avalé les trois quarts de sa production. Et tout porte à croire qu’elles ne comptent pas laisser beaucoup de miettes au reste du monde.

Forts de trois années d’observation du phénomène IA, les cabinets d’étude du marché prédisent donc sans complexe une envolée des ventes pour les GPU sur serveurs, jusqu’à 31 % de ventes en plus par an d’ici 2030. L’appétit immense des datacenters privés comme des hyperscalers s’en réjouit. Problème, on ignore si Nvidia, qui réalise jusque-là 98 % des ventes, pourra en mettre suffisamment sur le marché. D’autant que la fabrication de ces puces dépend d’une seule usine de TSMC à Taiwan, qui n’a pas augmenté sa production depuis 2021.

Pour le savoir, il faut sortir la calculette et combiner des chiffres publics, dont certains relèvent plus de l’intention que de l’observation, avec les estimations sans grande garantie des cabinets d’études, plus habitués à compter des revenus en dollars que des unités produites.

Le projet américain Stargate à 500 milliards de dollars devrait mettre en production 2 millions de GPU pour entraîner l’IA d’ici 2029. En France, où les centrales d’énergie nucléaire sont déjà opérationnelles, les 109 milliards d’euros d’investissement en data center IA – que l’État vient de présenter lors de son récent sommet consacré au sujet – pourraient servir à mettre en production près de 1 million de GPU d’ici 2030. Et même plus si Sesterce tient sa promesse de fournir 1 million de GPU à lui tout seul.

L’Union européenne a annoncé dans la foulée qu’elle rassemblerait 200 milliards d’euros supplémentaires dans un plan InvestAI qui pourrait découler, lui aussi, sur environ 1,2 million de GPU déployés d’ici à cinq ans, dans au moins douze datacenters géants (des « gigafabriques d’IA ») supposés accueillir 100 000 GPU haut de gamme chacun. Dans ses intentions, l’UE semble prudente quant à la partie des investissements qu’il faudra consacrer au seul achat de GPU, préférant garder suffisamment de budget pour les infrastructures de stockage de données et de connectivité.

Toujours dans le monde occidental, le Royaume-Uni est aussi en train de mettre en place un AI Opportunities Action Plan pour répondre à Stargate. Pour autant, celui-ci n’est pas encore chiffré, ni dans ses investissements ni dans son objectif de GPU à déployer.

Une demande trop forte

À ce stade, la question est donc de savoir si ces projets étatiques auront réussi à acquérir d’ici 2030 au moins 4,2 millions de GPU pour data centers. Mais du fait, d’une part, de problèmes de production des semiconducteurs et, d’autre part, de nouveaux quotas imposés par les USA au reste du monde, aucun cabinet d’études ne semble plus en mesure de déterminer combien de GPU seront mis sur le marché entre maintenant et le début de l’année 2030. Certains parlent de ventes en croissance annuelle de 14 %, d’autres estiment que la demande va augmenter de 31 % d’une année sur l’autre d’ici à 2030.

Il s’agit d’extrapolations à partir des deux seuls chiffres connus sur un marché de l’IA encore très jeune. En 2022, il s’est vendu 2,67 millions de GPU pour datacenters et, en 2023, 3,85 millions d’unités. Ce sont des GPU de marque Nvidia dans plus de 98 % des cas. Mais, dans la grande majorité, il ne s’agissait pas de puces pour l’IA : les GPU, comme les modèles T4 puis L4 chez Nvidia, ont principalement servi des applications graphiques. En particulier l’affichage de bureaux Windows virtuels, notamment via Microsoft 365 en cloud ou VMware sur site, et l’encodage de vidéos, pour tous les médias en ligne.

Les seules puces capables de servir des applications d’IA en 2023, en entraînement de modèles comme en inférence, ont représenté environ 800 000 unités, dont un peu plus de 500 000 nouveaux Nvidia H100 et le reste en Nvidia A100, son prédécesseur.

Les chiffres de 2024 devront attendre encore plusieurs semaines pour être comptabilisés ; les premières estimations parlent de 4,9 millions de GPU vendus. Cette fois, la part de puces capables de traiter de l’IA pourrait représenter environ la moitié des GPU vendus. En effet, pour compléter les H100, Nvidia a remplacé fin 2023 ses puces graphiques L4 par des modèles L40S susceptibles de servir aussi en inférence (la mise en exécution de l’IA). Cela ne signifie pas pour autant qu’ils soient forcément utilisés pour cet usage.

Si l’on s’en tient aux modèles H100 (dits Hopper), dans toutes leurs versions y compris la version H200 avec plus de mémoire et la version H800 pour la Chine, une estimation rapide situerait le nombre d’exemplaires mis sur le marché à un peu moins de 2 millions. Ce chiffre est cohérent avec les 500 000 exemplaires de H100 par trimestre que Nvidia aurait dit pouvoir faire sortir des usines de TSMC fin 2023.

Parmi les géants d’Internet, le cabinet Omdia estimait récemment dans le Financial Time que Microsoft avait acheté 485 000 GPU Nvidia Hopper en 2024, Meta (Facebook, Instagram…) 224 000, ByteDance (TikTok) 230 000, xAI plus Tesla 200 000, Amazon 196 000 et Google 169 000. Soit un peu plus de 1,5 million de GPU Nvidia pour l’entraînement de modèles d’IA, à eux six. À cela, il faut ajouter les dizaines de milliers d’unités qu’Oracle et d’autres géants du cloud privé (dont des Chinois) ont également annoncé avoir achetées, plus les quelques milliers acquis par quelques dizaines de supercalculateurs, plus les quelques dizaines acquises par des milliers d’entreprises.

Partons du principe qu’il y aurait donc eu 2 millions de GPU haut de gamme, capables d’effectuer des traitements d’IA en datacenters, mis sur le marché en 2024. Les estimations de 14 à 31 % de croissance annuelle, basées sur les achats, signifieraient donc que la demande entre maintenant et fin 2029 serait de 15 à 24 millions de GPU haut de gamme pour data centers. En considérant que les USA n’autorisent plus que dix-neuf pays dans le monde à acheter plus de 50 000 GPU tous les deux ans, il est probable que l’évolution de la demande annuelle soit plus proche de l’estimation la plus basse.

Mais le marché saura-t-il en produire autant ? Le cabinet IDC observe que les nouvelles usines de semiconducteurs tardent à sortir de terre et anticipe une croissance annuelle de la production de 19,8 % en 2025, 8 % en 2026, 9 % en 2027 et 13 % en 2028. En supposant que les GPU haut de gamme représentent toujours la même proportion de la production durant toutes ces années, il faudrait donc plutôt s’attendre à une offre cumulée d’environ 14,7 millions d’unités mises sur le marché d’ici à fin 2029. Le compte n’y est pas...

Des usines de semiconducteurs qui ne peuvent produire plus

Selon le dernier rapport de l’association Semi, 180 usines de semiconducteurs vont entrer en production en 2025. 48 autres sont toujours en construction depuis 2023 (elles commenceront leurs opérations en 2026), 32 autres depuis 2024 et 18 autres chantiers devraient démarrer en 2025. De moins en moins. Pour la plupart, ces usines remplacent des usines obsolètes avec des meilleurs moyens de production. En 2024, le monde comptait 1 500 usines opérationnelles, nombre d’entre elles étant regroupées sur les mêmes sites. TSMC, qui grave les puces de Nvidia, opère par exemple une quinzaine d’usines sur trois sites à Taiwan.

La fabrication de GPU ne représente qu’une fraction de la capacité de production. En 2025, le secteur produira 14 millions de wafers par mois (wpm) gravés en 50 nm ou plus, pour produire des puces dédiées aux équipements industriels. 15 millions de wpm gravés entre 8 et 45 nm pour produire des puces dédiées aux véhicules et appareils connectés. Et seulement 2,2 millions de wpm gravés en 7 nm ou moins pour produire tous les processeurs et GPU, qui serviront dans les smartphones jusqu’aux serveurs de supercalcul.

Concernant Nvidia et ses nouveaux GPU Blackwell B200, ils ne seront fabriqués, pour au moins les deux prochaines années, que dans une seule usine, la Fab 18 de TSMC, sur le site de Tainan, à Taiwan. La seule à ce jour capable de graver les circuits avec une finesse de 3 nm. Elle se modernise régulièrement pour atteindre de meilleures finesses de gravure – gage de puces plus performantes –, mais sa production stagne à 100 000 wafers par mois depuis 2021.

TSMC doit bien inaugurer à la fin de cette année une usine ultramoderne aux USA, la Fab 21 dont la construction se termine à Phoenix, en Arizona. Mais celle-ci est conçue pour graver des circuits moins performants, avec une finesse de 5 nm. Il se peut qu’elle soit à terme modernisée pour graver des circuits avec une finesse de 3 nm, mais sans doute pas avant 2027, lorsque Nvidia sera passé à la génération suivante de GPU, gravés avec une finesse de 2 nm.

La seule usine capable d’atteindre cette finesse de gravure de 2 nm sera la Fab 20 de TSMC, située à Hsinchu, à Taiwan. Celle-ci a une capacité de production de 120 à 130 000 wafers par mois.

Précédemment, Nvidia faisait fabriquer ses GPU H100 dans trois usines de TSMC capables de graver les circuits en 5 nm : les Fab 12, 14 et, donc, 18. À raison d’un peu moins de 3 000 wafers par mois pouvant contenir chacun 65 circuits H100. On ignore encore si le circuit des prochains GPU Blackwell B200 aura la même taille que celui des Hopper H100, soit 814 mm2. Cette taille conditionne le nombre de circuits que l’on peut graver sur un wafer.

Un autre élément à prendre en compte dans la production est que toute nouvelle série essuie de lourdes pertes. Le temps de déterminer les meilleurs réglages, les premiers lots de wafers sont incorrectement gravés, un nombre plus ou moins important de circuits situés près du bord étant « flous ». En fin d’année dernière, Nvidia avait ainsi eu la douleur d’annoncer à Meta, Google et Microsoft que la livraison de leurs commandes respectives de 400 000, 400 000 et 65 000 B200 serait retardée… d’un trimestre.

L’enjeu de trouver des alternatives

En conséquence, tous les éléments connus laissent envisager que Nvidia n’arrivera vraisemblablement pas à fournir tous les projets de giga-infrastructures d’IA censés être bouclés avant 2030. La Fab 21 de TSMC servant aussi à fabriquer toutes les puces les plus avancées du marché – celles d’Apple et d’AMD notamment, mais aussi d’un grand nombre de smartphones – il est peu probable que Nvidia parvienne à réserver du temps de production supplémentaire.

À moins qu’il cannibalise ses autres trains de production chez TSMC, lesquels lui servent jusqu’ici à mettre sur le marché 13 millions de GPU pour PC par an (sous la forme de cartes graphiques additionnelles). On ignore cependant quel impact une telle stratégie aurait sur ses résultats.

Cela ne signifie pas pour autant que ces projets étatiques pour l’IA ne se feront pas. D’une part, il est probable que les GPU de la famille MI300 d’AMD voient leurs ventes décoller en flèche pour compenser la pénurie de GPU Nvidia. D’autre part, il est raisonnable de penser qu’une portion plus importante que prévu de ces giga-infrastructures d’IA servent uniquement à utiliser l’IA et non à l’entraîner.

L’utilisation de l’IA, dite inférence, nécessite moins de puissance de calcul que l’entraînement. Elle peut être réalisée avec des puces gravées en 5 nm, comme des H100, des L40S, des ASIC spécialisés, voire des processeurs classiques, pour peu qu’ils embarquent une grande quantité de mémoire.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)