
IA : Phison utilise la capacité des SSD pour étendre la RAM des GPU
Avec ses logiciels aiDaptive+ et ses SSD PASCARI, Phison permet à de simples machines personnelles d’accéder à des fonctions de pointe jusqu’ici réservées aux datacenters, notamment le fine-tuning de grands modèles.
Utiliser la capacité des SSD NVMe comme une extension mémoire des GPU lors des traitements d’IA, telle est la nouvelle idée, pour le moins originale, du Taiwanais Phison. Et elle est intéressante, car elle promet aux possesseurs de machines d’appoint, postes de travail ou serveurs locaux, d’accéder à des fonctions de pointe en IA qui n’étaient jusqu’ici possibles qu’en datacenters ou en cloud, sur des clusters de GPU hors de prix.
« Quand j'étais chez Western Digital, Phison n'était pour moi qu'un fournisseur de composants. Aujourd'hui, je considère que c'est une machine de guerre de l'ingénierie, qui ose imaginer le stockage de demain », vante Michael Wu (en photo, en haut de cet article), le directeur général de la filiale américaine de Phison. Ce vétéran de l’électronique est arrivé dans l’entreprise voici sept mois, après avoir passé plusieurs années chez Kingston, Western Digital et Intel. LeMagIT l’a rencontré à l’occasion d’un événement IT Press Tour consacré aux entreprises qui innovent en matière de stockage de données.
Phison est l’un des principaux fournisseurs de contrôleurs de mémoire NAND, soit la puce qui, dans un SSD, décide dans quelles cellules stocker les données. Il développe aussi le firmware qui va avec, à savoir le logiciel embarqué qui pilote le contrôleur. Les fabricants de SSD lui achètent 500 millions de puces par an, soit 20% du marché, parce qu’elles garantissent à leurs produits accès rapides et fiabilité. Mais aujourd’hui, Phison veut aller au-delà de ces fonctions basiques.
Au travers de sa nouvelle marque aiDaptive+, Phison propose une bibliothèque qui permet aux utilisateurs d’IA – ceux qui veulent surentraîner des LLM avec des données personnelles comme ceux qui se contentent de faire de l’IA générative – d’installer sur leurs machines personnelles des LLM de très grandes tailles en allant piocher sur les SSD la mémoire manquante.
Phison parie en l’occurrence sur une croissance massive du marché IA sur site, motivée par les enjeux de confidentialité, de souveraineté et d’optimisation budgétaire. « Les entreprises veulent garder le contrôle de leurs données. Cela les pousse à déployer localement les modèles, plutôt qu’aller dans le cloud », souligne Michael Wu.
Transformer la NAND du SSD en grande capacité de RAM pour le GPU
Démonstration. Pour fine-tuner un LLM de 7 milliards de paramètres (c’est-à-dire le surentraîner en ajoutant à sa base de connaissances des informations issues de données privées), il faut 140 Go de RAM. Cela tient dans la RAM de quatre cartes GPU Nvidia RTX Pro 5000 pour PC qui totalisent 192 Go (4 x 48 Go). Très bien. Si ce n’est qu’une carte RTX Pro 5000 de Nvidia coûte à elle seule près de 6400 €.
« Un client m’a dit : j’ai acheté trois GPU uniquement pour leur mémoire. Je n’en avais pas besoin pour le calcul », illustre Brian Cox, le directeur produit de Phison.
Et puis, surtout, un LLM de seulement 7 milliards de paramètres est de toute façon considéré par les spécialistes comme trop peu efficace. Pour commencer à faire des choses sérieuses, il faut partir d’un LLM d’au moins 13 milliards de paramètres. Ou, mieux, doté de 70 milliards de paramètres. Hélas, leur réentraînement consomme respectivement 260 Go et 1,4 To de RAM graphique, ce qui n’est possible qu’en mettant en réseau des serveurs de calculs intensifs dans les rayonnages des datacenters. Une machine d’appoint n’a même pas assez de canaux PCIe disponibles pour installer le nombre requis de GPU.
Pour information, le dernier serveur XE9780 de Dell, qui intègre huit cartes RTX Pro 6000 de Nvidia (96 Go de RAM, 8000 € l’unité) et peut être déployé en dehors d’un datacenter, permet, au mieux, de réentraîner un LLM de 30 milliards de paramètres.
La bibliothèque aiDaptive+, en transformant la capacité de stockage des SSD Phison en extension mémoire pour GPU, permet pour la première fois de personnaliser des LLM intéressant depuis une simple machine d’appoint, qu’il s’agisse d’un serveur sur site refroidi à air ou même d’une station de travail. Certes, le temps de calcul est beaucoup plus long que sur un cluster des GPU Nvidia. Mais le coût n’a rien à voir : le prix des SSD de Physon se compte en quelques centaines d’euros.
« Nous utilisons notre SSD comme un espace d’échange intelligent. Nous paginons les modèles en mémoire flash et alimentons le GPU en continu. » Résultat : une réduction de coût pouvant aller jusqu’à 90 % », argumente Michael Wu.
En inférence (juste envoyer des prompts à l’IA), la consommation mémoire est bien moindre. Il est possible de faire tenir un LLM de 13 milliards de paramètres dans les 48 Go d’un seul GPU ou un LLM de 70 milliards de paramètres dans la RAM de deux GPU. Problème, il ne reste plus assez de place pour les prompts. Non seulement l’utilisateur ne peut pas épingler un document de 30 pages pour que l’IA le résume, mais cette IA n’a pas non plus la place de garder en mémoire l’historique des échanges avec un chatbot.
Là encore, aiDaptive+ résout le problème en conservant l’historique et les documents épinglés sous forme de données clés/valeurs, sur les SSD. « Récupérer l’historique à la vitesse de 7 Go/s depuis un SSD est en pratique plus rapide que redonner à chaque prompt l’ensemble des informations à l’IA pour qu’elle les traite », dit Michael Wu. Plus que la saisie du texte, il fait ici référence au temps de calcul pour transformer de longs prompts en tokens.
Des outils, des SSD et des machines prêtes à l’emploi
Pour bénéficier des avantages d’aiDaptive+, il faut que les développeurs des interfaces d’IA générative (Ollama, LM Studio, pour ne citer que les logiciels gratuits) aient recompilé leur outil en se basant sur la bibliothèque de Phison.
Le fabricant taiwanais propose d’ailleurs lui-même un tel outil : aiDaptiv Pro Suite. Il s’agit d’une interface de dialogue avec un ou plusieurs LLM de son choix, qui permet aussi d’inclure des documents dans la conversation (RAG). Et même de surentraîner le LLM (fine-tuning) avec ces documents pour qu’il en comprenne le sens, alors que le RAG s’apparente plus à un moteur de recherche.
La bibliothèque aiDaptive+ et la console aiDaptiv Pro Suite UI ne fonctionnent qu’avec les SSD NVMe de la nouvelle gamme PASCARI de Physon (acronyme de Performance, AI, Security, Capacity, Acceleration, Reliability & Innovation). Ces SSD disposent d’un firmware spécialement conçu pour faire passer leurs cellules de NAND pour de la mémoire GPU présente sur le bus PCIe.
La famille des SSD NVMe PASCARI est subdivisée en six gammes qui se différencient essentiellement par la nature de leur NAND. Par exemple, les modèles D sont les plus capacitifs (jusqu’à 122,88 To), mais comme ils utilisent une NAND QLC, ils sont 20 fois moins endurants que les modèles X à base de NAND MLC. Eux offrent jusqu’à 30,72 To de capacité. Les modèles D sont aussi 33 fois moins endurants que les modèles AI qui se limitent, eux, à une capacité de 8 To.
En plus de ces pièces détachées, Phison a noué des partenariats pour proposer des solutions d’appoint prêtes à l’emploi. Avec le fabricant de baies de stockage StorOne, il propose la configuration ONEai. Ici, la baie de disques contient l’ensemble des documents à soumettre à une IA, stockés sur une capacité de 500 To. Sa partie serveur (son contrôleur) est quant à elle dotée d’un GPU, d’un ou plusieurs SSD PASCARI, ainsi que des logiciels aiDaptive+ et aiDaptiv Pro Suite UI.
« Il devient possible d’entraîner et d’inférer localement. Avec cette solution, vous passez d’un centre de données à un simple bureau équipé d’une prise murale », ironise Michael Wu.
Phison planche aussi sur la fourniture d’un serveur 4U équipé de huit GPU et de huit SSD PASCARI qui serait capable de surentraîner des modèles de 671 milliards de paramètres (Deepseek R3) et même de 2000 milliards de paramètres (le futur Llama 4 Behemoth, prévu pour 2026).
Démocratiser le surentraînement des IA
« Nous ne voulons pas nous limiter à l’inférence. Notre stratégie, c’est de démocratiser le surentraînement local des IA. Et nous voulons même le faire depuis un PC portable », dit encore Michael Wu.
Il évoque des fourchettes de prix. Un PC portable embarquant un GPU et un SSD PASCARI pourrait surentraîner un modèle en 8 milliards de paramètres pour une facture globale comprise entre 2000 et 3000 dollars. Un PC de bureau avec un GPU plus puissant dans un slot PCIe et un SSD PASCARI plus capacitif surentraînerait un LLM de 13 milliards de paramètres pour environ 3000 à 4000 dollars. Une station de travail avec quatre GPU et autant de SSD PASCARI pourrait surentraîner un modèle de 100 milliards de paramètres pour environ 50 000 dollars.
« Nous ciblons un public large : PME, collectivités, établissements scolaires auront accès grâce à nous aux fonctions de pointe de l’IA », conclut le patron de la filiale américaine.
Pour Phison, 2025 s'annonce comme une année de vérité. Après les hauts et les bas de la période post-Covid, l'entreprise se donne comme objectif de passer de 10 % à 30 % de son chiffre d'affaires sous la marque PASCARI. Le pari est audacieux. Mais avec son avance sur le PCIe Gen5, sa capacité à produire des SSD sur mesure et sa vision très spécifique de l'évolution de l'IA, Phison pourrait bien devenir l’une des références derrière les plus grandes innovations du secteur.