2121fisher - Fotolia
IA : les analystes prédisent l’éclatement de la bulle des mémoires HBM
Alors que les rapports prédisent tous que ce composant, ingrédient essentiel dans l’entraînement des IA, rendra plus riches que jamais les fabricants de mémoire en 2025, ils alertent aussi sur son succès éphémère.
La mémoire HBM est-elle une technologie sans lendemain ? Alors que ce type de mémoire bénéficie en ce moment d’une demande phénoménale de la part des fabricants de GPU et de processeurs, les analystes prédisent une explosion de la bulle à court terme.
La cause ? La mémoire HBM n’est pas que très rapide, elle est aussi conçue pour dénouer les goulets d’étranglement. Or, si cette caractéristique fait de la HBM l’ingrédient miracle pour accélérer l’entraînement des intelligences artificielles, elle n’a que peu d’effet sur l’utilisation des IA génératives. Si bien que le succès de cette mémoire serait en définitive corrélé au seul besoin présent, mais ponctuel, de mettre au point des IA pour, demain, ne plus que les utiliser.
« Nous traversons actuellement une phase où il est essentiel de façonner très rapidement des modèles d’IA adaptés à tous les secteurs d’activité. Ce sont des processus de calcul dans lesquels la mémoire HBM est d’une grande aide. Cependant, dès que l’essentiel du marché sera passé à la phase suivante, à savoir utiliser tous les modèles déjà entraînés, les traitements seront bien moins intensifs et l’on passera à des puces accélérées pour l’inférence. Or, celles-ci se contentent de mémoires plus conventionnelles, moins chères », résume l’analyste Jeff Janukowicz, d’IDC.
Côté face, le marché observe que la mémoire HBM, littéralement à haut débit (High Bandwidth Memory), est fortement appréciée des fabricants de puces accélératrices pour l’intelligence artificielle. Il s’agit typiquement de Nvidia qui l’implémente dans ses GPU H100/H200 et G200 à 40 000 dollars l’unité. Elle est si efficace dans les datacenters qui sortent de terre à toute vitesse pour exécuter les traitements les plus lourds de l’IA qu’elle semble remettre en cause l’intérêt même des composants mémoires plus traditionnels.
D’autant plus que la mémoire HBM consomme moins d’énergie que des barrettes de DRAM. Une caractéristique particulièrement importante quand on sait que les serveurs les plus puissants sont au contraire accusés d’être particulièrement énergivores.
Côté pile, les analystes préviennent que ce succès est un leurre. Selon eux, la popularité croissante de la mémoire HBM devrait s'essouffler lorsque le marché passera de l’entraînement des modèles d'IA à leur inférence, parce qu’elle coûte très cher et que les mémoires conventionnelles s’avéreront alors plus rentables. Le cabinet Gartner prédit ainsi qu’en 2027 seuls 30% des puces accélératrices pour l’IA seront encore équipées de mémoire HBM, alors que 65% d’entre elles l’étaient en 2023.
Une fabrication très coûteuse
La rapidité de la mémoire HBM repose sur deux caractéristiques. La première est qu’elle est installée au plus proche des circuits qui calculent, c’est-à-dire dans la même puce, alors que les mémoires GDDR utilisées jusque-là avec les GPU étaient soudées ailleurs sur la carte accélératrice, comme n’importe quel autre composant électronique.
« Le problème des architectures classiques est qu’un grand nombre d'interconnexions ajoutent toutes sortes de résistances électriques sur les voies qui véhiculent les signaux, ce qui ralentit considérablement la circulation des données », explique Jim Handy, analyste spécialiste des semiconducteurs pour le cabinet d’études Objective Analysis.
Cette première caractéristique n’est toutefois plus une exclusivité de la mémoire HBM. Apple, puis Qualcomm ont entretemps embarqué de la mémoire LPDDR conventionnelle dans leurs processeurs Silicon Mx et SnapDragon X, deux familles de CPU réputées plus efficaces pour l’inférence que les X86 dénués de RAM.
La seconde caractéristique de la mémoire HBM est qu’elle se compose de circuits de DRAM empilés les uns au-dessus des autres, et non placés côte à côte. Cette architecture, qui revient à ménager des raccourcis verticaux dans les chemins de données horizontaux, réduit encore par 10 – ou plus – le temps de trajet des données entre les transistors où elles sont stockées et le processeur.
« Problème, cette architecture est la plus difficile à fabriquer », lance l’analyste Shrish Pant, auteur du rapport sur les prévisions de ventes des mémoires HBM pour le cabinet Gartner.
Pour commencer, la connexion entre les différents étages de circuits de DRAM nécessite que ceux-ci soient percés de trous pour laisser passer de minces fils électriques de liaison, une technique appelée TSV (Through-Silicon Via). L’aménagement de ces trous a pour conséquence qu’un circuit de, disons, 1 Go occupe physiquement jusqu’à deux fois plus de place sur le wafer lors de la fabrication qu’un circuit de 1 Go de DRAM destiné à des mémoires standards.
On fabrique donc deux fois moins de circuits par wafer et comme le prix des circuits est calculé au wafer, un circuit de 1 Go destiné à une mémoire HBM coûte par conséquent deux fois plus cher dès la gravure.
Évidemment, comme la mémoire HBM doit être extrêmement performante, ses circuits sont aussi toujours fabriqués sur les chaînes de gravure les plus modernes, qui sont aussi les plus chères. Cela augmente encore le prix au Go par rapport aux circuits DRAM des barrettes ordinaires qui ont souvent une génération de retard.
Il faut ensuite empiler tous ces circuits au-dessus d’un circuit de contrôle, ce qui augmente encore les coûts de fabrication. D’abord parce que cette étape d’assemblage ralentit le délai de production. Ensuite, parce qu’elle découle sur des pertes plus importantes.
« Le problème avec les semiconducteurs est que vous ne pouvez tester la fiabilité de leur gravure qu’après les avoir assemblés. En cas de problème sur un circuit DRAM classique, vous le jetez. En cas de problème sur une mémoire HBM, vous jetez toute la pile. Soit généralement quatre circuits d’un coup », dit Jeff Janukowicz.
Une demande exceptionnellement forte, actuellement
Lors de l’annonce de leurs derniers résultats financiers, en juin et juillet, les trois principaux fabricants de HBM - SK Hynix, Samsung et Micron - ont souligné que la demande pour des mémoires HBM était devenue si importante que leur production était mise sous une pression inédite.
SK Hynix a ainsi indiqué que ses ventes de mémoires HBM avaient été multipliées par plus de 3,5 en un an, et avaient même augmenté de 80% rien que sur le dernier trimestre. Pour sa part, Micron a déclaré ne même plus pouvoir prendre de commande avant la fin de l’année 2025, tant sa production n’arrivait plus à suivre les demandes en cours.
Simultanément, le cabinet d'analystes TrendForce publiait une prévision selon laquelle la demande et le prix des mémoires HBM permettraient aux fabricants de mémoire d’atteindre, en 2025, des revenus jamais vus.
« La mémoire HBM stimule non seulement la demande de capacité, mais aussi le prix moyen des mémoires. Rien qu’en 2024, la mémoire HBM représentera 5 % des capacités mémoires vendues et 20 % des recettes », indique le rapport TrendForce.
« Cette demande vient essentiellement des hyperscalers, qui veulent acheter de grandes quantités de GPU dotés de mémoire HBM pour revendre ensuite des services de calcul les plus performants possibles », observe Jim Handy.
SK Hynix est actuellement le plus important fabricant de circuits HBM3, la dernière génération. Et il fournit l’essentiel de sa production à Nvidia, de très loin le plus gros vendeur du GPU.
« C’est un pari réussi pour SK Hynix. Il a investi beaucoup et très tôt dans les mémoires HBM et c’est ce qui lui permet aujourd’hui de devancer technologiquement Samsung, le plus important fabricant de mémoires au monde, toutes catégories confondues », dit Jim Handy.
À l'origine, Samsung, Micron, SK Hynix et d’autres planchaient au début des années 2010 sur de nouveaux types de mémoires avec circuits empilés pour augmenter la densité et la vitesse de la RAM dans un serveur, voire dans un PC. Deux projets se faisaient concurrence.
La mémoire HMC (Hybrid Memory Cube), défendue par Micron et Samsung, avait la particularité de placer un contrôleur sur chaque couche de DRAM. Cela la rendait 15 fois plus rapide que les mémoires DDR3 d’alors.
La mémoire HBM, défendue par SK Hynix et AMD, n’avait qu’un contrôleur pour toute la pile de circuits DRAM. Si cela était moins efficace en termes de vitesse brute pour exécuter une application, cette architecture avait néanmoins le mérite de résoudre bien mieux les problèmes de goulet d'étranglement dans les traitements parallèles des supercalculateurs. C’est d’ailleurs pour cela qu’elle a définitivement pris le pas sur la mémoire HCM en 2018, lorsque les fabricants de GPU pour supercalculateurs ont enfin décidé de l’adopter.
Cela dit, les supercalculateurs étaient alors un marché de niche. Sk Hynix était loin de se douter que la demande pour ses mémoires exploserait à la faveur de l’essor de l’IA. La mémoire HBM étant normalisée par le JEDEC, le consortium qui officialise des standards ouverts sur le marché des semiconducteurs, Samsung et Micron ont abandonné la mémoire HCM et se sont mis à suivre SK Hynix dans la production de HBM.
Mais un succès éphémère ?
La HBM est donc une mémoire qui coûte très cher pour éliminer les goulets d’étranglement dans des processus comme l’entraînement de modèles d’IA, où les traitements parallèles d’un algorithme de Machine Learning doivent chacun lire ou écrire des données à des endroits distincts de la mémoire.
Problème, ce n’est pas du tout ainsi que fonctionnent les algorithmes d’inférence en IA générative. L’inférence consiste à trouver un chemin parmi les connaissances du modèle stocké en mémoire pour générer un contenu. Son fonctionnement, plus linéaire, ne souffre pas des goulets d’étranglement. En inférence, le circuit de contrôle HBM qui sert à router plusieurs flux de données vers les circuits de DRAM empilés au-dessus est sous-exploité. Il est plus efficace de le remplacer par un circuit spécialisé dans le calcul des coordonnées des informations qu’il faut successivement trouver.
« De fait, il est assez difficile de déterminer les ventes futures de mémoire HBM », en suggérant qu’elles ne reposeront que sur le besoin d’entraîner encore des modèles. Il est cependant probable que ce besoin se tarisse au fil du temps. Et même s’il reste possible d’affiner a posteriori les connaissances d’un modèle en l’entraînant sur des données additionnelles, cette charge de travail ne sera jamais aussi intense que celle de l’entraînement initial.
De fait, les hyperscalers et les centres de calcul qui possèdent déjà des GPU équipés de HBM pourraient rentabiliser leurs équipements en place sans éprouver la nécessité d’investir dans des modèles plus performants pour l’entraînement. Et cela leur permettrait de plutôt investir dans des puces qui, elles, sont plus douées pour accélérer l’inférence, sans mémoire HBM.
C’est d’ailleurs l’avenir qui semble poindre au vu des dernières évolutions en bourse de l’action Nvidia. Début septembre, elle dévissait de près de 10%, faisant perdre à la capitalisation boursière de Nvidia quelques 279 milliards de dollars en une seule journée. Même si les raisons de cette chute ne sont pas directement imputables aux mémoires HBM – les analystes financiers estiment à présent que l’IA ne rapporte pas autant aux entreprises qu’espéré et que celles-ci pourraient freiner leurs investissements – elles font entendre que, en matière d’IA, le succès éphémère est de mise.