LLM : pour s’émanciper d’Anthropic et d’OpenAI, Microsoft lance la famille de modèles MAI
Parmi les sept modèles d’IA générative dévoilés par le groupe américain, deux d’entre eux intéresseront plus particulièrement les entreprises. Comme ils ne sont pas encore au niveau de ceux d’OpenAI et d’Anthropric, Microsoft cherche à vendre des services d’entraînement.
Lors de Microsoft Build, le géant du cloud a lancé sept modèles d’IA regroupé sous la famille MAI (pour Microsoft Artificial Intelligence). Son intention est de couvrir toutes modalités de l’IA générative : raisonnement, programmation, transcription, voix, et génération d’images.
Sept modèles, cinq modalités
Commençons par ceux qui sont déjà accessibles.
MAI-Image-2.5 est un modèle de diffusion de 20 milliards de paramètres capable de surpasser Nano Banana Pro et Nanobana 2 de Google. Il est décliné dans une version « Flash ».
MAI-Voice-2 est un modèle text to speech capable de générer des contenus vocaux de synthèse en 15 langues. Il est possible d’utiliser un échantillon vocal (10 à 120 secondes) pour reproduire la voix d’une personne. Des garde-fous sont en place pour éviter les dérapages, assure Microsoft qui se garde bien de détailler le fonctionnement exact de ce modèle.
Également propriétaire, MAI-Transcribe-1.5, lui, est un modèle speech to text compatible avec 43 langues. Il peut transcrire une heure d’audio en moins de 15 secondes en se payant le luxe d’afficher un taux d’erreur WER de moins de 2,4 % sur l’index d’Artificial Analysis. C’est un peu mieux que Voxtral de Mistral AI (2,8 %) et qu’Universal 3 Pro (3,1 %).
MAI-Voice-2 et Transcribe 1.5 sont accessibles à travers d’Azure Speech.
Puis il y a deux autres modèles dont il faudra attendre la disponibilité générale.
MAI-Code-1-Flash, est dédié à la programmation agentique et a été entraîné pour s’intégrer à GitHub Copilot, VS Code et à Azure. Son architecture Sparse Mixture of Experts lui permet d’afficher 5 milliards de paramètres actifs pour 137 milliards de paramètres au total. Il obtiendrait des résultats supérieurs à Claude Haiku 4.5 sur l’ensemble des benchmarks effectués par Microsoft. Il n’arrive toutefois pas à la cheville des grands modèles, tels Sonnet 4.7, GPT-5.3 Codex et Opus 4.8.
« Il n’y a que MAI qui m’aille » : MAI-Thinking-1, le modèle de raisonnement phare de Microsoft
Mais l’équipe « SuperIntelligence » de Microsoft est surtout très fière de présenter la préversion privée de MAI-Thinking-1. Comme l’appellation l’indique, c’est un modèle de raisonnement de 1015 milliards de paramètres dont seulement 35,6 milliards sont actifs à l’inférence. Il dispose d’une fenêtre de contexte de 256 000 tokens.
Si fier qu’elle a publié un rapport de 109 pages détaillant les choix techniques et les résultats des tests. Une pratique de moins en moins courante chez Google, Anthropic et OpenAI.
MAI-Thinking-1 a vu passer près de 33 550 milliards de tokens et a été entraîné sur un cluster logique sur un site comptant 8192 GPU Nvidia GB200. Cela dénote avec les précédents LLM de Microsoft, les modèles Phi – qui réclamaient généralement moins d’un mois d’entraînement sur moins de 2000 GPU.
Et les chercheurs d’assurer que MAI-Thinking-1 n’a pas été entraîné en utilisant les données synthétiques de modèles tiers. Mieux, à l’inférence, Microsoft entend utiliser ses puces Maia 200, sans en préciser le nombre.
Malgré cette débauche de moyens, le modèle reste très légèrement en deçà de Claude Sonnet 4.6 et non loin d’Opus 4.6. Il faudra attendre les parangonnages tiers pour se faire une idée réelle des performances de MAI-Thinking-1.
Mustafa Suleyman, CEO de Microsoft AI et cofondateur de DeepMind, justifie officiellement ces lancements par la volonté de se hisser au niveau des modèles « frontières » tout en gardant le contrôle.
Auprès de Bloomberg, le dirigeant considère que le coût des modèles d’Anthropic est trop élevé et qu’il faut des alternatives moins coûteuses.
À un moment où la facture liée à la consommation au tokens commence à effrayer les directions financières, le discours est rodé.
En interne, selon The Verge, Microsoft aurait coupé l’accès à des milliers de licences Claude Code au profit de GitHub Copilot CLI. Malgré ses investissements importants dans OpenAI, le géant du cloud n’entretient plus d’aussi bonnes relations avec la société fondée par Sam Altman et cherche à s’en émanciper techniquement.
Des modèles financièrement compétitifs
Ainsi, les sept modèles seront proposés sur Azure, mais aussi depuis les plateformes OpenRouter, Fireworks et Baseten (Base10).
MAI-Image-2.5 est facturé 5 dollars pour un million de tokens textuels, et 8 dollars pour le même volume de tokens d’image en entrée et 47 dollars pour 1 million de tokens d’image en sortie.
À titre de comparaison, Nano Banana 2 est inclus dans Gemini 3.1 Flash. Google Cloud facture à l’image suivant sa taille (de 0,045 dollar à 0,151 dollar par image) et 1 million de tokens d’image coûte 60 dollars.
MAI Transcribe-1.5 est facturé 0,36 dollar pour une heure, contre 0,21 dollar par heure pour le déjà très performante Universal 3 Pro d’AssemblyAI.
MAI-Voice-2 revient à 22 dollars par million de caractères, contre 1 dollar par million de tokens en entrée et 20 dollars en sortie pour le même volume avec Gemini 3.1 Flash TTS, le leader de sa catégorie selon Artificial Analysis. Voxtral TTS coûte 16 dollars pour 1 million de caractères.
Depuis GitHub Copilot MAI-Code-1-Flash est facturé 0,75 dollar pour 1 million de tokens en entrée et 4,5 dollars pour le même volume en sortie. C’est moins cher que Claude Haiku 4.5 (1 dollar/5 dollars pour 1 million de tokens en entrée et en sortie). Et MAI-Code-1-Flash consommerait « jusqu’à 60 % de tokens » en moins que Haiku 4.5, selon les tests de Microsoft. L’écart moyen est moins impressionnant. Un rapide calcul permet de déterminer que MAI-Code-1-Flash consomme en moyenne 14,9 % de tokens en moins que Claude Haiku 4.5.
Surtout, le modèle léger de programmation de Microsoft devra faire ses preuves face aux modèles open weight. Qwen 3.6B-35B-A3B d’Alibaba dispose de scores équivalents pour un prix largement inférieur, puisqu’exécutable en local. De son côté, Microsoft propose de l’héberger sur des instances managées facturées à l’heure (environ 8 dollars/heure).
Frontier Tuning : pousser les entreprises à entraîner les LLM
Outre l’idée de prendre des parts de marché à Anthropic, à OpenAI, Google et aux autres acteurs de niche, Microsoft entend vendre son service de réentraînement, Frontier Tuning. Il s’agit plus particulièrement de pipelines managés d’apprentissage par renforcement consacré aux modèles MAI et un service de conseil. La solution est en accès anticipé. Le modèle tarifaire est inconnu.
« Avec Frontier Tuning, vous créez votre propre modèle, entraîné sur vos données, au sein de votre environnement et sous votre contrôle », écrit Mustafa Suleyman. « Le savoir-faire de votre organisation est intégré au modèle et reste votre propriété. Mieux encore, cette adaptation se traduit par un gain d’efficacité et de performances », vante-t-il.
« Au sein de Microsoft et chez nos clients, Frontier Tuning démontre que les modèles personnalisés sont à la fois plus performants et plus efficaces : notre modèle MAI optimisé pour Excel est comparable à GPT 5.4 tout en étant jusqu’à 10 fois plus efficace », poursuit-il.
Ce discours a également été porté par Snowflake cette semaine. La semaine d’avant, Mistral AI répétait ses ambitions en la matière. L’acteur français considère depuis au moins deux ans que le réentraînement est la voie à suivre par les entreprises. En tant que fournisseur cloud, Microsoft semble surtout vendre de la puissance de calcul.
Les analystes de Futurum Group retiennent le fait que Microsoft assure la traçabilité des données d’entraînement. « Mustafa Suleyman a spécifiquement positionné MAI Thinking 1 pour les secteurs réglementés où la traçabilité des modèles revêt une importance particulière », écrivent-ils. « Le rapport technique publié par Microsoft souligne que cette famille de produits est conçue pour un déploiement en entreprise plutôt que pour l’optimisation des performances ».
Les ingénieurs de Microsoft mettent surtout l’accent sur l’amélioration de leurs pipelines et donc de services comme Frontier Tuning. « Les progrès en matière d’IA ne sont pas le fruit d’un modèle unique ; ils résultent de chaînes de traitement qui peuvent être améliorées de manière fiable », concluent-ils.
