Puces IA : Crescend Island d’Intel aura plus de mémoire que les autres GPU

Le prochain GPU d’Intel ne cherche pas à rivaliser avec ceux de Nvidia sur la vitesse mémoire. Au contraire : doté de circuits LPDRR5X de smartphones, il offre plus de capacité pour utiliser des IA plus performantes qui traitent plus d’informations à un coût moindre.

Lors du salon Computex qui se tient cette semaine à Taipei (Taiwan), Intel déroule une stratégie qui doit le placer au cœur des solutions matérielles pour l’inférence. Après le lancement de son dernier processeur Xeon 6+ à 288 cœurs, censé absorber tous les traitements agentiques qui gravitent autour d’un LLM, le fondeur est revenu sur sa stratégie autour des GPU.

En vedette, l’arrivée avant la fin de l’année d’une carte accélératrice Crescent Island. Celle-ci se veut aussi puissante que les GPU de Nvidia pour exécuter des LLM, car elle embarque une impressionnante mémoire de 480 Go. Mais elle coûtera beaucoup moins cher, car il s’agit d’une mémoire externe LPDDR5X, bien plus rentable que la mémoire HBM interne des GPU Nvidia quand il ne s’agit pas d’entraîner des LLM.

« Pour que ce soit clair : qu’importe la marque, un GPU accélère autant l’entraînement des IA que leur utilisation. En revanche, ces deux cas d’usage ont des enjeux économiques différents », lance Anil Nanduri, responsable des produits d’IA et de leurs utilisations en entreprise (en photo en haut de cet article), lors d’un entretien avec LeMagIT.

« En entraînement, vous avez besoin d’une puissance maximale, quel que soit le prix, pour mettre rapidement sur le marché un modèle d’IA qui soit concurrentiel. En inférence, vous accélérez juste vos tâches quotidiennes au coup par coup. Donc, vous ne voulez pas payer une fortune pour une accélération qui dépasse vos besoins. Nous proposons de payer bien moins cher pour l’accélération qui correspond à vos besoins », argumente-t-il.

La caractéristique clé : une très grande quantité de mémoire peu chère

Prenant la forme d’une carte PCIe, Crescent Island a le mérite de pouvoir s’installer dans n’importe quel serveur. La carte n’a pas besoin de refroidissement liquide compliqué ni d’alimentations démesurées, car elle ne consomme – et ne dissipe – que 350 watts. C’est beaucoup, beaucoup moins que les 1000 à 1200W d’une carte haut de gamme Nvidia Blackwell B200 qui n’intègre que 192 Go de mémoire HBM. Et cela reste même bien inférieur aux 600 W d’une carte RTX Pro 6000 que Nvidia vend pour l’inférence avec seulement 96 Go de mémoire externe GDDR7.

En fait, il faut descendre jusqu’à la carte Nvidia RTX Pro 5000 pour trouver une consommation inférieure, soit 300 watts. Mais pour une capacité mémoire de 48 Go, soit dix fois inférieure à celle de Crescent Island.

« La mémoire LPDDDR est celle que l’on trouve dans les smartphones. Il n’y a pas plus économique en énergie. Elle n’est pas aussi rapide que la HBM ou la GDDR, mais ce qui compte le plus pour vos besoins d’inférence, c’est la taille de cette mémoire. Plus elle est importante, plus vous pourrez exécuter des modèles d’IA performants, avec le plus grand nombre de paramètres préenregistrés. Et, surtout, plus grande sera la quantité de fichiers que vous pourrez lui donner à traiter à chaque requête », s’enthousiasme Anil Nanduri.

A priori, la bande passante entre la puce accélératrice et sa mémoire LPDDR5X serait d’environ 684 Go/s, via un bus large de 640 bits qui relie une vingtaine de circuits de 24 Go, individuellement accessibles en 32 bits. Comparativement, cette bande passante est de 8 To/s sur B200, 1792 Go/s sur RTX Pro 6000 et 1344 Go/s sur RTX Pro 5000.

En revanche, les performances sur les cartes Nvidia s’écroulent dès les données à traiter dépassent la taille de la mémoire GPU, car il faut alors les charger depuis la mémoire du serveur, voire, pire, depuis des SSD. Avec 480 Go de capacité, Crescent Island ne devrait jamais être confronté à ce problème.

Une solution conçue pour déployer des pools de ressources GPU

Cela dit, on pourrait s’interroger sur la pertinence de ces architectures dans lesquelles le GPU a sa propre mémoire. Lors de la présentation du Xeon 6+, Intel a expliquait que le processeur avait autant d’intérêt en inférence que le GPU. Or, Apple et AMD ont démontré que l’on économisait de la mémoire et que l’on réduisait davantage les mouvements de données avec une architecture où processeur et GPU adressent les mêmes octets dans une mémoire partagée.

« Cette architecture ne fonctionne que sur une machine personnelle », s’empresse de rétorquer Anil Nanduri ! « Crescent Island est une solution serveur, dans laquelle vous aurez plusieurs utilisateurs ou plusieurs agents qui devront accéder à une IA et dont il faudra répartir les requêtes sur les ressources disponibles. Parce que vous installerez plus GPU dans un serveurs, ou plusieurs serveurs dans un rack. Si vous commencez à lier des processeurs et des GPU, vous cassez l’efficacité de la répartition. »

« Ce qui est davantage important ici, c’est d’avoir des communications en réseau qui fonctionnent très bien entre des pools de ressources identiques - un pool de GPU, un pool de processeurs, un pool de SSD - pour offrir suffisamment de granularité à la répartition des tâches et, surtout, pouvoir facilement étendre les ressources », ajoute-t-il, en expliquant que le principe d’élasticité est le même en IA agentique qu’en virtualisation.

Prochaine série « C » des cartes PCie Intel Arc Pro

Crescent Island repose sur des cœurs Xe (manifestement « eXascale for everyone »), soit l’architecture dont Intel dote tous ses GPU, qu’il s’agisse de ceux intégrés aux processeurs de PC portables (les puces Core Ultra), comme ceux fournis en cartes PCIe Arc Pro. Chaque génération de GPU en cartes PCIe est identifiée chez Intel selon l’ordre alphabétique. Les modèles actuels sont la série B, à base de cœurs Xe2, et Crescent Island est le nom de code d’une nouvelle série C, à base de cœurs Xe3P.

À l’heure où nous écrivons ces lignes, les différences entre Xe2 et Xe3P ne sont pas commentées par Intel. Selon la compréhension du MagIT, il y en a au moins deux : la possibilité d’utiliser de la mémoire LPDDR et le support de la virtualisation SR-IOV (partitionnement matériel des cartes PCie, par Intel). Cette dernière fonctionnalité doit permettre, en inférence, d’utiliser plusieurs LLM sur un même GPU, chacun se réservant une portion de la mémoire.

La lettre « P » différencie ces cœurs des Xe3 intégrés aux derniers processeurs x86 Core Ultra « Panther Lake » (troisième génération) qu’Intel a lancés en début d’année sur PC. Il s’agirait d’exprimer qu’il s’agit sur Crescent Island de cœurs GPU avec quelque chose en « Plus », mais LeMagIT n’a pas pu déterminer si l’on parlait de davantage de mémoire cache ou d’unités mathématiques.

Des GPU pensés pour les tâches d’IA exécutées en parallèle

En marge de Computex, Intel a organisé une mini exposition avec des stands présentant chacun les fonctionnalités de ses produits.

Celui dédié aux cartes GPU faisait la démonstration d’une tâche d’IA agentique qui, grâce aux pilotes Intel, peut se répartir sur plusieurs cartes Arc Pro. Dans cette démonstration, une station de travail était équipée de quatre cartes Arc Pro B70 (32 cœurs Xe2, 32 Go de RAM GDDR par carte). Chaque carte embarquait dans sa mémoire un LLM différent constitué de 20 à 30 milliards de paramètres. Et un agent – OpenClaw, ici – découpait une demande industrielle complexe en autant de processus spécialisés (analyse d’image, analyse de texte, génération de code) qu’il envoyait à l’un ou l’autre des GPU.

La partie intéressante de cette démonstration est qu’elle lançait en même temps plusieurs demandes complexes (selon les relevés de plusieurs robots industriels) et qu’elles étaient réparties au mieux pour solliciter tous les GPU, sans temps mort.

Cette démonstration aurait pu s’exécuter sur une seule carte Crescent Island grâce à sa mémoire nettement supérieure à celle d’une carte Arc Pro B70 et son support de la virtualisation. Mais elle suggère surtout qu’il serait simple pour une entreprise d’installer des serveurs x86 dotés de cartes Crescent Island afin d’exécuter une très grande variété de tâches d’IA pour un grand nombre de salariés.

Intel a son propre SDK pour développer des applications d’IA qui tirent parti de ses GPU : oneAPI. Moins connu que les SDK Cuda de Nvidia ou ROCm d’AMD, oneAPI a néanmoins la vocation d’embrasser plus que les deux autres les valeurs de l’Open source. Le kit est compatible avec toutes les marques de GPU et peut aussi servir à programmer les processeurs, des FPGA, ou tout autre accélérateur.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)