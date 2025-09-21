Dans le domaine de la répartition des calculs nécessaires aux IA, Nvidia annonce racheter pour 900 millions de dollars la startup californienne Enfabrica. Celle-ci a mis au point un contrôleur CXL, baptisé ACF-S (Accelerated Compute Fabric Switch), qui est capable d’étendre la mémoire de travail de plusieurs GPU vers 18 To de RAM stockés dans un module externe, lequel est relié en Ethernet aux serveurs.

En entraînement d’IA, ces 18 To de RAM sont bien plus rapides qu’une baie des SSD. En inférence, c’est-à-dire dans le cas d’une utilisation en entreprise d’IA génératives déjà entraînées, cette mémoire partagée externe permet à un cluster de GPU de collaborer directement sur plusieurs LLMs. Qui plus est de très grands LLM qui tiennent d’ordinaire difficilement dans la mémoire d’un GPU.

Bien qu’encore très peu implémentée, la solution d’étendre la mémoire en externe via le protocole standard CXL n’est pas une nouveauté. En revanche, la prouesse d’Enfabrica est de savoir le faire via un simple réseau Ethernet, alors qu’il faut normalement doter chaque serveur d’une carte contrôleur CXL.

18 To de RAM dans un boîtier relié par Ethernet Côté Ethernet, l’ASIC ACF-S communique 3,2 Tbit/s au travers de huit ports Ethernet en 400 Gbit/s, ou quatre ports en 800 Gbit/s. Côté RAM, la puce d’Enfabrica gère 144 canaux PCIe 5 pour une bande passante totale de 5 Tbit/s. À raison de quatre canaux par barrette, ce contrôleur peut partager 36 barrettes d’un maximum de 512 Go chacune, d’où le total de 18 To de RAM. L’été dernier, Enfabrica a construit un serveur EMFASYS (Elastic Memory FAbric SYStem) doté de sa puce ACFS-S et de barrettes mémoires pour présenter les cas d’usage. Les 18 To sont soit simultanément utilisés par huit GPU d’entraînement qui lisent ou écrivent leurs données en parallèle avec un débit de 400 Gbit/s, soit partagés comme une mémoire unifiée entre une trentaine de GPU d’inférence, via des switches Ethernet équipés de ports 100 Gbit/s. Le réseau Ethernet doit nécessairement supporter le mode RDMA. Il doit donc s’agir d’équipements compatibles soit avec le protocole standard RoCE v2, soit avec le protocole Spectrum-X propriétaire de Nvidia. Concernant la gestion de mémoire externe, Nvidia la supporte depuis ses GPU via son protocole propriétaire NVLink. À date, NVLink n’est pas directement compatible avec le protocole CXL standardisé par Intel. Mais il devrait suffire à Nvidia de développer un pilote logiciel pour que ses GPU NVLink utilisent la mémoire CXL partagée par la puce ACF-S.

En complément d’un projet de SSD CXL avec Kioxia Simultanément à ce rachat, Nvidia a noué un partenariat avec Kioxia pour un projet similaire d’extension mémoire de ses GPU. Sauf que dans le cas de Kioxia, il s’agirait de simuler de la RAM à partir de la capacité de stockage de SSD extrêmement rapides, capables d’atteindre 100 millions d’IOPS d’ici à 2027. Pour l’heure, les SSD de Kioxia plafonnent plutôt à 1,5 million d’IOPS. Pour parvenir à une telle vitesse, les SSD de Kioxia seraient dotés d’un nouveau contrôleur qui démultiplie les canaux de lecture/écriture devant des puces qui empilent 96 couches de cellules NAND. À la manière de la mémoire HBM, où les puces de DRAM ont plusieurs couches entassées verticalement, chacune avec un bus de communication dédié. D’ailleurs, Kioxia évoque le terme de NAND HBF (avec un F comme Flash, à la place du M de Memory, HB signifiant dans les deux cas High Bandwidth). Pour pouvoir se présenter comme de la mémoire directement attachée aux GPU, le nouveau contrôleur de Kioxia saurait partager sa NAND au protocole CXL, via quatre canaux PCIe. Ce SSD serait soit directement monté juste à côté du GPU, soit dans un boîtier CXL externe. Tel que l’EMFASYS d’Enfabrica.