Puces IA : Nvidia dévoile le Rubin CPX pour l’inférence

Le constructeur a dévoilé les caractéristiques probables du GPU qu’il lancera d’ici à la fin de l’année 2026 pour accélérer l’inférence.

À l’occasion du salon AI Infra Summit qui se tient cette semaine dans la Silicon Valley, Nvidia vient de dévoiler les caractéristiques que devrait avoir le GPU Rubin CPX qu’il commercialiserait vers la fin de l’année 2026. Doté d’une puissance théorique de 30 Pétaflops en 4 bits (a priori 120 000 TPP, soit 25 fois au-delà de l’interdiction proposée par le Sénat américain), cet accélérateur sera plutôt destiné à l’utilisation de l’IA générative qu’à son entraînement.

Dépourvu de mémoire HBM, mais accompagné à la place de 128 Go de GDDR7 plus conventionnelle, ce GPU aurait le mérite de contenir une plus grande variété de circuits spécialisés. Il accélérera ainsi les fonctions d’encodage des prompts utilisateurs et des données, potentiellement nombreuses, ajoutées à celui-ci par RAG. Un travail qui n’est aujourd’hui pris en charge que par des circuits de type NPU. A priori, le Rubin CPX supportera aussi d’accélérer l’encodage vectoriel des images et des vidéos.

Le fait d’intégrer ce circuit avec les fonctions matricielles plus classiques de recherche de tokens doit permettre d’utiliser une mémoire unifiée. C’est-à-dire qu’un LLM de 100 milliards de paramètres encodés en 8 bits deviendrait utilisable avec 128 Go de GDDR. Il ne nécessiterait plus d’avoir autant de RAM du côté du processeur principal.

Concernant la génération de résultats, ce GPU disposera de nouveaux accélérateurs pour produire des vidéos.

Le Rubin CPX sera contemporain du GPU Rubin tout court – dédié, lui, à l’entraînement des IA – et du processeur ARM Vera, successeur de l’actuel Grace. Ces composants devraient prendre place dans de nouveaux serveurs MGX 7,5 fois plus puissants que les actuels DGX GB300, qui comprennent deux processeurs Grace et quatre GPU B300 par nœud de calcul. Un cluster MGX pourrait contenir 144 GPU Rubin et 72 processeurs Vera, totalisant 150 To de mémoire HBM.

Ces clusters disposeraient par ailleurs de switches d’interconnexion Spectrum6 et de cartes réseau ConnectX-9 capables de supporter un débit de 1 600 Gbit/s par port.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)