Haris - stock.adobe.com
Muse Spark : Meta reprend la course aux LLM et délaisse l’open source
Meta lance Muse Spark, une collection de grands modèles de langage propriétaires. La stratégie du géant des réseaux sociaux jure avec son histoire vis-à-vis des sciences ouvertes. Néanmoins, il juge cette approche nécessaire pour concurrencer OpenAI, Google et Anthropic.
La semaine dernière, Meta a présenté le fruit du travail orchestré par le directeur de l’IA Alexandr Wang. Pour rappel, sa venue avait provoqué le départ de Yann Le Cun. Depuis, le laboratoire FAIR (Facebook AI Research) – à l’origine des modèles Llama – a été englobé au sein des « Superintelligence Labs ».
Un peu moins d’un an après le lancement de Llama 4, cette nouvelle organisation a présenté le premier grand modèle de langage de sa collection Muse Spark.
Le changement de ton est marqué. Alors que Meta se posait comme le champion de « l’IA open source » (dans une certaine mesure), Muse Spark rassemble des modèles propriétaires.
Muse Spark se bat dans la cour des grands
Le premier LLM présenté est doté de capacités multimodales (il peut traiter du texte et des images en entrée) et de raisonnement.
Il propulse l’application Meta AI aux États-Unis. Elle prend désormais en charge des sous-agents pour subdiviser les demandes des utilisateurs. Préparation de voyage, classification des aliments par apport calorique depuis une photo d’un plat, recherche de magasins, personnes intéressantes à suivre sur Instagram, etc. Les usages suggérés sont simples. Muse Spark sera déployé sur WhatsApp, Facebook, Messenger et les lunettes connectées Meta.
Toutefois, les modèles ne seront pas exclusivement réservés aux usages des abonnés du géant des réseaux sociaux. Une API est disponible en préversion privée pour un petit nombre de partenaires. En clair, Meta se prépare pour concurrencer plus frontalement OpenAI, Google et Anthropic.
Dans ce revirement commercial, il faut également faire une croix sur la science ouverte.
Habituellement prolixe concernant l’architecture de ses LLM, Meta ne donne pas d’information sur la taille et l’architecture du premier modèle Muse Spark. Il évoque un « petit modèle, rapide ».
Le cabinet Artificial Analysis précise que la fenêtre de contexte du modèle est de 262 000 tokens.
Quand Meta prétend que son modèle égale ou surpasse Claude Opus 4.6 d’Anthropic, GPT-5.4 d’OpenAI et Gemini 3.1 Pro de Google, l’évaluateur indépendant le place en quatrième position de son index Intelligence, à égalité avec Claude Sonnet 4.6 Max.
Bonne nouvelle, Muse Spark ne génère « que » 58 millions de tokens pour passer les tests d’Artificial Analysis, soit un peu plus que Gemini 3.1 Pro (53 millions de tokens) et presque trois fois moins que Claude Opus 4.6 Max (160 millions de tokens).
Une révision en profondeur de la pile technologique
De son côté, Meta précise qu’il a revu en profondeur son infrastructure, son architecture et ses pipelines IA. Ses équipes se sont concentrées sur le pré-entraînement (multimodalité, raisonnement et code), l’apprentissage par renforcement et le raisonnement (« test-time reasoning »).
Avec Llama 4, Meta s’était essayé à l’architecture Mixture of Experts. Ici, les chercheurs semblent avoir repris cette base pour l’améliorer et l’optimiser. « Les résultats sont sans appel : nous pouvons atteindre les mêmes performances avec une puissance de calcul inférieure d’un ordre de grandeur à celle de notre modèle précédent, Llama 4 Maverick », affirment-ils. La refonte des pipelines de données a également son rôle à jouer.
Concernant l’apprentissage par renforcement, les chercheurs disent avoir stabilisé leur recette pour obtenir des gains prévisibles. Un exercice apparemment difficile : cette phase serait prompte aux instabilités.
Au moment de la phase de « test-time reasoning », les chercheurs se sont concentrés sur la production de réponses de qualité dans un temps imparti, afin d’éviter la surconsommation de tokens.
« Pour y parvenir, nous nous appuyons sur deux leviers essentiels : l’application de pénalités de temps de réflexion afin d’optimiser l’utilisation des tokens, et l’orchestration multiagent qui améliore les performances sans ralentir les temps de réponse », indiquent-ils.
Dans cette boucle, le modèle de récompense n’intervient pas immédiatement. Dans une première phase, Muse Spark a gagné en performance en raisonnant sur le long terme. Puis, les pénalités l’ont obligé à « compresser » son raisonnement, c’est-à-dire à produire moins de tokens intermédiaires avant de répondre. Les chercheurs ont ensuite laissé le modèle reprendre sa réflexion à plus long terme, avant de répéter l’opération.
Pour les réponses aux questions les plus complexes, les ingénieurs de Meta ont entraîné le LLM à propulser des agents IA en parallèle. Cela permettrait d’apporter des réponses plus élaborées dans un même laps de temps.
Un effet « Dieselgate » involontaire
Concernant la sûreté, Meta a remis ses tests au goût du jour. « Muse Spark ne présente ni la capacité d’autonomie ni les tendances dangereuses nécessaires pour concrétiser des scénarios de menace », affirme l’entreprise. Des résultats à confirmer en situation réelle.
D’autant que le cabinet de Red Teaming Apollo Research, sollicité par Meta, considère que Muse Spark est le modèle plus enclin à reconnaître les évaluations de sécurité. « Le modèle identifiait souvent certains scénarios comme des “pièges d’alignement” et estimait qu’il devait se comporter honnêtement puisqu’il était en train d’être évalué », expliquent les ingénieurs de Meta. Pour rappel, les constructeurs automobiles impliqués dans le « Dieselgate » avaient commandé à Bosch un logiciel qui adaptait la cartographie des véhicules au contexte du banc de puissance. Ici, le réseau de neurones s’en chargerait lui-même.
Néanmoins, cela ne serait pas un frein à la mise en service de la collection. Ce comportement ne serait observé que dans des tests « sans rapport » avec la génération de contenus véritablement dangereux. Les ingénieurs de Meta considèrent toutefois que ce comportement « mérite des recherches plus approfondies ». Le rapport sur la sécurité de Muse Spark n’a pas encore été publié.
Une stratégie commerciale à préciser
L’interrogation majeure concerne davantage le modèle de distribution des modèles propriétaires. Llama 2, 3 et 4 étaient largement diffusés par les fournisseurs de cloud. Muse Spark bénéficiera-t-il du même traitement ? La question est aujourd’hui sans réponse.
Le géant des réseaux sociaux pourrait jouer sa partition « solo ». La mise à disposition à plus grande échelle d’une API est d’ores et déjà prévue, mais elle sera pour l’instant gérée par Meta. Dernièrement, Meta a permis aux clients de Salesforce de lancer des agents IA depuis Agentforce sur WhatsApp. Certaines entreprises pourraient vouloir exploiter le modèle à leur disposition.
De même, Meta avait bâti Llama Stack, un « proto-framework » agentique. Sera-t-il compatible avec ces nouveaux modèles ou le groupe prévoit-il de constituer sa propre suite d’outils ?
Sans réponses à ces questions, Google, Anthropic et OpenAI risquent de maintenir leur domination auprès des développeurs et des entreprises. Cet axe pourrait toutefois être nécessaire dans la stratégie commerciale du groupe.
Il n’est pas évident que les retombées commerciales des agents IA depuis les applications Meta soient suffisantes pour couvrir les investissements du groupe. En janvier, il prévoyait de dépenser 115 à 135 milliards de dollars. Ces fonds financeront principalement le déploiement de systèmes d’IA. Au quatrième trimestre fiscal 2025, ses outils de génération de vidéo lui ont permis d’engranger 10 milliards de dollars de revenus, tandis que les modèles déjà intégrés dans son application accroissent les taux de conversion publicitaire.
