BAIVECTOR - AdobeStock

Inférence IA « universelle » : Qualcomm veut s’emparer de Modular

Pour se muscler sur le marché des data centers et du cloud, Qualcomm prépare le rachat d’une plateforme d’inférence IA compatible avec la majorité des CPU et puces IA disponibles.

par

Gaétan Raoul, LeMagIT

Publié le: 25 juin 2026

Qualcomm a annoncé son intention d’acquérir Modular. S’il n’a pas dévoilé le montant de l’opération dont la finalisation est prévue au cours de la seconde moitié de l’année 2026, Bloomberg révèle qu’elle pourrait représenter 3,9 milliards de dollars.

Fondée à Los Altos en Californie en 2022, Modular développe une plateforme consacrée à l’inférence de modèles IA. À partir d’un conteneur docker, ses utilisateurs peuvent déployer plus de 1000 modèles de GenAI téléchargés depuis HuggingFace sur la plupart des équipements du marché (puces Nvidia, Apple, Intel, AMD et ARM) en cloud depuis des API ou des instances dédiés, sur site ou en local.

Ce conteneur s’appuie sur deux briques open core : MAX, le conteneur lui-même qui inclut un serveur d’inférence et Mojo, un langage de programmation proche de C++, de Rust et Zig qui utilise une syntaxe interopérable avec Python (merci CPython).

« Et si vous avez besoin de personnaliser le modèle ou d’optimiser un kernel GPU, Modular offre une extensibilité des modèles et une programmabilité GPU d’une richesse que vous ne trouverez nulle part ailleurs », vante la startup.

Une alternative à VLLM et à CUDA

Depuis son cloud managé, les modèles sont facturés au token avec les API multitenant, et à la minute derrière le VPC de ses clients. Modular a décroché sa place sur la marketplace d’AWS.

« La plateforme unifiée de Modular exécute des modèles avec des performances de pointe sur les architectures CPU, GPU, NPU et ASIC personnalisées, sans qu’il soit nécessaire de réécrire le code pour chaque accélérateur », décrit Qualcomm, dans son communiqué de presse. « Pour les développeurs et les entreprises, cela signifie qu’ils peuvent développer une seule fois et déployer leur application dans n’importe quel environnement, tout en bénéficiant d’un coût total de possession réduit ».

La politique du « build once, deploy everywhere » est également une logique portée en interne chez Microsoft. Modular est surtout un concurrent frontal de Red Hat AI, la suite propulsée par vLLM.

« Cet accord permet à Qualcomm de se positionner comme une couche logicielle ouverte stratégique, capable de gérer plus efficacement les charges de travail liées à l’IA sur différentes architectures de calcul », déclare Holger Mueller, analyste chez Constellation Research, dans un billet de blog. « Il sera essentiel que Modular puisse continuer à fonctionner comme une solution multi-plateforme d’optimisation du calcul, même s’il appartient désormais à l’un des acteurs du marché qui propose une offre d’inférence encore naissante », nuance-t-il.

Data Centers : Qualcomm fait part de ses ambitions

Ce n’est pas la première brique logicielle dédiée à la GenAI que le concepteur de puces, spécialiste des smartphones, de la télécommunication et de l’IoT rachète. En mars 2025, il avait mis la main sur Edge Impulse, afin de déployer des LLM et des SLM sur SoC Snapdragon.

Or, l’ambition de Modular est de proposer une alternative crédible à CUDA, le framework logiciel propriétaire de Nvidia qui propulse la majorité des LLM commerciaux ou open weights. Force est de constater qu’elle n’a pas réussi par ses propres moyens.

Qualcomm pourrait convaincre les startups, dont des fournisseurs de LLM et certaines entreprises d’opter pour sa couche d’inférence « universelle ». Google (pour ses TPU), AMD, Apple, AWS, Microsoft disposent de leurs propres piles logicielles de bout en bout. Selon The Information, Qualcomm qui cherche à se tailler une place sur le marché du data center aurait également engagé des négociations pour acquérir TensTorrent, un concepteur d’une puce IA qui combine des cœurs RISC-V et 32 Go de VRAM GDDR6 à installer dans une station de travail.

Officiellement, Qualcomm a présenté Dragonfly C1000, un CPU « adapté à l’IA agentique » en sus de ses puces d’inférence AI200, AI250 (prévu pour la mi-2027) et la future AI300, dont la commercialisation est prévue pour 2028. Meta s’est déjà porté acquéreur du C1000, tandis que Microsoft s’intéresse à sa technologie HBC (High Bandwith Compute) qui combine la mémoire et les unités de calcul sur un même die. Sans doute que l’apport d’une couche logicielle comme celle de Modular rassurera les premiers clients.

Inférence IA « universelle » : Qualcomm veut s’emparer de Modular

Pour se muscler sur le marché des data centers et du cloud, Qualcomm prépare le rachat d’une plateforme d’inférence IA compatible avec la majorité des CPU et puces IA disponibles.

Une alternative à VLLM et à CUDA

Data Centers : Qualcomm fait part de ses ambitions

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)

Computex 2026 : Intel rapproche son catalogue de celui de Nvidia

Puces IA : le prochain RNGD de FuriosaAI fonctionnera en cluster

Red Hat Summit : Red Hat AI 3.4 va désormais au-delà du serveur d’inférence

KubeCON 2026 : la CNCF s’empare du sujet de l’inférence