Untether AI, Brium et Enosemi : les rachats d’AMD pour rattraper Nvidia
Si Enosemi ne doit servir qu’à perfectionner les réseaux d’entraînement de LLM en datacenters, les deux autres startups permettront à AMD de progresser significativement dans l’optimisation des IA pour les entreprises.
En amont d’une conférence californienne qu’il dédie cette semaine à l’intelligence artificielle, le fabricant de puces AMD vient coup sur coup de racheter Enosemi, qui développe des circuits photoniques, Brium, qui édite une bibliothèque d’optimisation des LLM, et Untether AI, qui a mis au point une carte d’accélération pour l’inférence.
Comme il l’avait fait avec le rachat de ZT Systems l’année dernière, AMD explique qu’il investit pour gonfler ses équipes existantes de nouvelles compétences, pas pour enrichir son catalogue de produits. Ainsi, la carte accélératrice speedAI 240 d’Untether AI et son kit de développement imAIgine sont purement et simplement enterrés.
« AMD a conclu un accord stratégique pour acquérir une équipe talentueuse en matériel et en logiciel d’IA auprès d’Untether AI. La transaction procure à AMD des ingénieurs qui se consacreront à l’amélioration des compilateurs, des noyaux système et des intégrations de SoC », a déclaré un porte-parole du fabricant au média CRN qui a eu l’exclusivité de cette annonce.
« La transaction [pour Untether AI] procure à AMD des ingénieurs qui se consacreront à l’amélioration des compilateurs, des noyaux système et des intégrations de SoC. »
Porte parole AMD
« Ce jour marque la fin de l’aventure Untether AI. […] Nous nous réjouissons des contributions que notre équipe apportera à AMD », ont de leur côté écrit les dirigeants d’Untether AI dans un bref billet de blog, qui annonce l’arrêt immédiat des produits. Selon les benchmarks MLPerfs, la carte SpeedAI 240 avait des performances à peine inférieures à celles d’un GPU H100 de Nvidia sur l’utilisation d’un LLM déjà entraîné, mais elle avait l’avantage de consommer beaucoup moins : 75 W au lieu de 400 W. Une nouvelle version devait dépasser le H100, moyennant une consommation de 150 W.
Enosemi et Brium, déjà partenaires d’AMD
Le rachat sera sans doute plus fluide pour les startups Enosemi et Brium, puisqu’elles avaient justement été fondées pour apporter aux produits d’AMD de quoi mieux rivaliser avec Nvidia.
Brium édite une suite logicielle qui permet de reformater un LLM existant afin d’optimiser son utilisation sur les puces accélératrices de la machine qui l’exécute. Dans un contexte où il existe déjà sur Hugging Face des versions des LLM tantôt plus adaptées aux GPU de Nvidia, tantôt aux processeurs Silicon d’Apple, Brium a démontré son savoir-faire en proposant des déclinaisons pour les GPU Instinct (MI300…) d’AMD.
À la manière de SGLang ou vLLM, Brium est une plateforme logicielle qui comprend aussi des bibliothèques avec lesquelles les applications d’inférence doivent être compilées pour tirer parti du formatage optimisé du LLM.
Enosemi fabrique pour sa part des circuits, qui convertissent les signaux électriques des cartes réseau en signaux optiques transportables plus loin dans le datacenter grâce à des fibres. A priori, ses technologies autorisent des cartes communiquant en 400 Gbit/s.
Un niveau similaire avec Nvidia sur l’entraînement
Toutes ces technologies doivent permettre à AMD de mieux rivaliser avec Nvidia dans le domaine des infrastructures accélérées pour l’IA. À date, AMD dispose des GPU Instinct, à savoir les MI300, MI325 et MI350 qui sont censés concurrencer les GPU H100, H200 et B200, respectivement, de Nvidia. L’intérêt de l’offre AMD est que les cartes GPU coûtent entre 25 et 36 % moins cher que celles de Nvidia.
Ces GPU servent de base à entraîner des LLM, mais encore faut-il les accompagner des bibliothèques logicielles qui optimisent l’entraînement sur la puce accélératrice utilisée et, mieux, avoir des cartes réseau pour avaler les données à la vitesse de ladite puce.
Nvidia dispose depuis des années de son kit de développement Cuda et, plus récemment, d’équipements réseau Spectrum-X (en Ethernet) ou Quantum-X (en Infiniband) accélérés par des ASIC, qui prennent place aussi bien dans les switches que dans les cartes réseau. Dernièrement, il a doté ses switches de puces photoniques, pour éviter de dépenser des milliers d’euros dans les adaptateurs cuivre/fibre.
AMD a développé son kit ROCm, qu’il a perfectionné avec le savoir-faire de Nod.ai (racheté en octobre 2023) et Silo AI (racheté en juillet 2024). Il dispose aussi de puces d’accélération pour le réseau grâce aux rachats des FPGA Xilinx pour switches (en octobre 2020) et des ASIC Pensando pour cartes réseau (en avril 2022). En revanche, il lui manquait les puces photoniques, une problématique résolue avec le rachat d’Enosemi.
L’enjeu d’accélérer l’inférence
Au-delà de l’entraînement, qui concerne surtout les hébergeurs disposant de suffisamment de ressources matérielles, l’enjeu de l’IA pour les entreprises se situe dans les possibilités d’inférence. Ici, il existe deux options : soit recycler les GPU utilisés pour l’entraînement, soit acheter des accélérateurs dédiés à l’inférence. Dans les deux cas, il faut accompagner ces puces de plateformes logicielles complètes, qui comprennent à la fois des LLM convertis pour tirer parti de l’architecture hôte et des applications prêtes à l’emploi autour de ces LLM.
Nvidia proposait historiquement des cartes graphiques sans sortie vidéo pour accélérer l’inférence (les L4, L40 et L40S) et opte à présent pour des versions réduites de ses derniers GPU Blackwell (les cartes RTX Pro). Le défaut de ces solutions est qu’elles consomment énormément d’énergie, essentiellement parce qu’elles sont conçues pour faire bien plus que de l’inférence, à savoir de l’affichage accéléré de machines virtuelles sur serveurs et de l’entraînement.
La force de Nvidia se situe surtout dans ce domaine sur la plateforme logicielle AI Enterprise qui accompagne ses matériels. Elle comprend toutes les bibliothèques pour accélérer l’utilisation de l’IA, notamment des pilotes de baies de stockage tierces qui facilitent l’injection de documents privés dans l’analyse d’une IA (méthode dite de RAG). Et elle est aussi fournie avec des exemples d’applications prêtes à l’emploi qu’il suffit de personnaliser. Elles vont du simple chatbot au jumeau numérique d’une usine, en passant par des logiciels capables d’identifier les éléments filmés par une caméra de vidéosurveillance.
AMD n’avait jusqu’ici pas grand-chose à proposer en matière d’inférence, si ce n’est ses tout derniers processeurs Ryzen AI Max. Comme les processeurs Silicon Mx d’Apple, ils intègrent tous les accélérateurs dans la même puce, avec l’avantage qu’ils partagent la même mémoire. Sur le papier, cette approche est bien plus rapide et bien moins énergivore que celle de Nvidia.
Pour autant, cette approche est difficilement élastique. Si elle se prête bien à une utilisation sur un poste personnel, les entreprises gagnent plus à utiliser des puces spécialisées pour partager des fonctions d’inférence depuis leurs serveurs. Cette problématique devrait être résolue grâce au savoir-faire d’Untether AI.
Reste la plateforme logicielle. Sans remplacer tous les modules prêts à l’emploi de Nvidia, les compilateurs de Brium et d’Untether AI promettent de convertir facilement des projets Open source en logiciels accélérés sur les puces d’AMD, qu’il s’agisse de GPU Instinct, de processeurs Ryzen AI Max ou de tout autre accélérateur NPU qui pourrait naître d’Untether AI.
Pour approfondir sur Hardware IA (GPU, FPGA, etc.)