Puces IA : les hébergeurs commencent à déployer les GPU d’AMD

Face à la pénurie probable de GPU Nvidia, les opérateurs de clouds privés commencent à proposer des infrastructures d’IA équipées de MI325X, la solution alternative d’AMD. Aux USA, Vultr ouvre la danse.

Le déploiement d’infrastructures d’IA non basées sur des GPU Nvidia a commencé. Aux USA, l’opérateur de cloud privé Vultr déploie désormais des infrastructures pour l’entraînement et l’inférence de LLM à base de GPU MI325X d’AMD. En l’état, Vultr propose à ses clients la location de serveurs qui intègrent huit cartes GPU totalisant 2 To de mémoire HBM3e et pouvant, selon lui, traiter les données à la vitesse de 8 x 6 To/s (des Supermicro AS-8126GS-TNMR 8U).

Comparativement, des serveurs similaires à base de huit GPU Nvidia H200 totalisent 1,128 To de mémoire HBM3E pour une vitesse de 8 x 4,8 To/s, et ceux basés sur des Nvidia H100 totalisent 640 Go de mémoire HBM3 pour une vitesse de 8 x 2 To/s. Accessoirement, les configurations à base de GPU AMD devraient coûter entre 25 % et 36 % moins cher que celles à base de GPU Nvidia. Pour un serveur de 8 GPU, Vultr proposait ainsi précédemment un tarif de 17,52 $/heure avec des AMD MI300X et de 23,92 $/heure avec des Nvidia H100.

Jusqu’ici, les GPU MI325X et, précédemment, MI300X d’AMD ne semblaient intéresser que les fabricants de serveurs pour supercalculateurs, dont HPE. Pour autant, le véritable avantage des GPU d’AMD, que ce soit en traitement d’IA comme en supercalcul, semble plus tenir à leur disponibilité qu’à leurs performances ou leur prix.

L’intérêt des GPU d’AMD : ils sont disponibles

Concernant la problématique de disponibilité des GPU, les analystes estiment que la pénurie de puces Nvidia a de fortes chances de s’imposer aux entreprises dans les mois à venir. En 2024, les trois quarts de la production de GPU Nvidia ont été acquis par seulement six géants d’Internet (Microsoft Azure, Meta, ByteDance, xAI, Amazon AWS et Google GCP). Actuellement, le tiers de la production de GPU Nvidia à venir en 2025 est déjà préempté par Google GCP et Meta. Dans ce contexte, les MI325X d’AMD font office de solution de secours.

En termes de performances, le précédent MI300X d’AMD obtenait exactement les mêmes scores MLPerf que le H100 de Nvidia (3 000 tokens/seconde par puce, environ 24 000 pour un serveur de huit GPU), alors qu’il disposait de 2,4 fois plus de mémoire HBM. Selon des chiffres publiés par AMD, un MI325X mettrait autant de temps à entraîner les LLM Llama 3.1 8B et Mistral 7B qu’un H200.

En matière de prix, utiliser un GPU d’AMD signifie se priver de l’accès à la bibliothèque AI Enterprise de Nvidia, qui propose des modules NIM prêts à l’emploi pour bâtir des applications d’inférence en un tournemain (chatbots d’IA générative à simplement personnaliser, connecteurs RAG pour soumettre les documents de l’entreprise à l’IA, jumeaux numériques, etc.). À la place, les développeurs devront partir d’une page plus ou moins blanche. Précisons toutefois qu’AI Enterprise est une option payante, facturée mensuellement comme un logiciel SaaS.

La pénalité est moindre sur l’entraînement et l’affinage des modèles, où le kit ROCm de Nvidia s’interface avec les mêmes frameworks (PyTorch, TensorFlow...) que le kit Cuda de Nvidia.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)