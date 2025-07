Microsoft poursuit sa stratégie consacrée à l’IA locale. Après avoir présenté Windows AI Foundry, Windows AI Dev Gallery et le modèle Phi Silica, la firme de Redmond a présenté la semaine dernière Mu, un petit langage de modèle adapté pour s’exécuter sur un processeur « neuronal » (NPU).

Les PC+Copilot du fournisseur sont équipés d’une puce IA à la puissance limitée : jusqu’à 45 TOPS. Sachant que ses clients et ceux de ses partenaires (Dell, HP, Lenovo, etc.) entendent conserver ces machines plus longtemps qu’à l’accoutumée, le fournisseur sait qu’il doit réduire l’empreinte des LLM.

En comparaison avec un autre SLM de même taille basé sur une architecture « decoder only », déployée sur le même équipement ( une puce Hexagon de Qualcomm ), Mu produirait son premier token avec une latence 47 % inférieure et décoderait les données 4,7 fois plus rapidement.

« En séparant les tokens d’entrée des tokens de sortie, l’encodage unique de Mu réduit considérablement les frais de calcul et de mémoire », écrivent les chercheurs. « Dans la pratique, cela se traduit par une latence plus faible et un débit plus élevé sur du hardware spécialisé ».

Mu, un SLM optimisé pour l’architecture des NPU

Les chercheurs de Microsoft assurent avoir adapté les couches du réseau de neurones sous-jacent et les opérations effectuées par Mu afin de s’adapter à l’architecture particulière des NPU. Ainsi, le modèle dispose de 32 couches dédiées à l’encodage et 12 au décodage. Les poids associés aux embeddings en entrée et en sortie sont partagés : un seul jeu de paramètres est utilisé pour représenter un élément textuel présenté par l’utilisateur et généré par le modèle. « Cela permet non seulement d’économiser de la mémoire (ce qui est important pour les NPU à mémoire limitée), mais aussi d’améliorer la cohérence entre les vocabulaires d’encodage et de décodage », commentent les chercheurs de Microsoft. Tout comme le runtime de Mu ne peut qu’exécuter les opérations optimisées pour le NPU.

Microsoft s’est également appuyé sur des techniques d’optimisation répandues chez les fournisseurs de LLM : couche de normalisation duale (Dual LayerNorm), mécanisme de rotation de position des embeddings (RoPe), et mécanisme d’attention à requêtes groupées (GQA).

La phase d’entraînement divisée en trois étapes (préparation, stabilisation, décroissance) est également de la partie. Pour le reste, les chercheurs ont repris des techniques expérimentées lors du pré-entraînement des modèles Phi. Des « centaines de milliards de tokens » issus de contenus de « haute qualité » ont été utilisés (par exemple des livres de grammaire, de conjugaison, d’Histoire, etc.) dans une première étape. Ensuite, les chercheurs ont « distillé » des connaissances en provenance de Phi, en lui faisant générer du contenu lié à différentes tâches. En clair, des données synthétiques générées par ce LLM.

Mu a été entraîné sur un cluster de GPU Nvidia A100, sans que Microsoft en révèle le nombre. Le modèle a d’abord été entraîné avec une précision d’encodage FP16, puis convertit après l’entraînement en entier (Int) 8 et 16 bits. D’autres phases de quantization (compression) ont été menées avec Intel, AMD et Qualcomm pour s’adapter aux NPU cibles. « Les étapes d’optimisation se traduisent par des inférences très efficaces sur les périphériques, produisant des sorties à plus de 200 tokens/seconde sur un Surface Laptop 7 ».

Microsoft le reconnaît : s’il est rapide, en tant que modèle de base, Mu est loin d’être le plus performant, surtout en comparaison des LLM de 7 à 14 milliards de paramètres. « Mais le couplage avec des données spécifiques à une tâche, ainsi qu’une mise au point supplémentaire par le biais de méthodes d’adaptation de rang faible (LoRA), peuvent améliorer considérablement les performances du modèle », notent les chercheurs.

À ce jeu du fine-tuning léger, Mu égalerait les résultats de Phi 3,5 mini quand il est affiné dans les mêmes conditions.