
Windows AI Foundry : Microsoft promet de faire tomber les obstacles à l’IA locale
Avec Windows AI Foundry, Microsoft propose une alternative propriétaire à Ollama et lamaccp. Il promet de simplifier le déploiement d’algorithmes de machine learning et de SLM sur des ordinateurs sous Windows 11… ou macOS.
À travers Windows 11 et plus particulièrement avec les ordinateurs équipés d’un NPU, Microsoft avait déjà proposé de déployer de petits LLM, comme DeepSeek R1-1.5B.
C’était le rôle de Windows Copilot Runtime. Lors de son événement Build 2025, le fournisseur a expliqué que le service évolue et devient Windows AI Foundry.
À différencier d’Azure AI Foundry, Windows AI Foundry est une suite conçue pour gérer le déploiement local de modèles d’IA et de machine learning. Jusqu’alors, la firme de Redmond limitait cette possibilité aux PC Copilot+, mais il fait rapidement évoluer son offre.
Microsoft décline sa plateforme IA pour les déploiements locaux
Un PC Copilot+ a accès aux Windows AI API, permettant d’intégrer des services d’IA exécutés en local, comme le LLM Phi Silica, IA imaging (agrandissement, description, analyse d’images) ou l’outil d’OCR Text Recognition. Ces API sont également accessibles depuis des applications de bureau tierces ou spécifiques.
En préversion, Windows Machine Learning (ML) permet de déployer localement des modèles ML au format ONNX sur des PC Windows 11 (24H2) équipé d’un GPU ou d’un NPU et même d’un iGPU (chipset graphique intégré à un CPU). Avantage certain : Windows ML est compatible avec les architectures x86-64 et ARM64, tandis que Microsoft prend en charge les pilotes AMD, Nvidia, Intel et Qualcomm pour le runtime ONNX. Windows ML installe automatiquement les bons packages en fonction du profil de l’ordinateur cible. Il peut aussi gérer l’installation des dépendances du modèle ou de l’application associée (une version spécifique de Python, par exemple).
Windows ML serait parfait pour « l’IA ambiante », c’est-à-dire l’exécution de petites tâches en arrière-plan. Un NPU d’une puissance d’environ 40 TOPS pourrait très bien gérer l’exécution d’un petit algorithme au format ONNX avec une consommation de « l’ordre du Watt ». Pour de plus gros modèles, Microsoft recommande des GPU dédiés Nvidia.
L’outil serait déjà en cours de déploiement par Adobe, Wondershare, McAfee, BufferZone ou encore Topaz Labs.
Déployer des SLM sur Windows 11 et macOS
Le géant du cloud n’oublie pas l’IA générative en local.
Avec la préversion de Foundry Local, Microsoft fournit un SDK (Python, JavaScript), des API et un CLI pour déployer des SLM (small language models) sur des PC Windows 11… et des ordinateurs macOS.
Sans surprise concernant les Mac, Microsoft prend uniquement en charge les machines équipées de puces Apple Silicon (M1, M2, M3, M4). Cela tombe bien, elles font déjà largement leur preuve en matière de performance et d’efficience au moment d’exécuter des LLM.
Là encore, ONNX est essentiel. Le fournisseur propose d’utiliser l’outil Olive pour convertir, puis optimiser des modèles au format Safetensor ou PyTorch vers des checkpoints ONNX.
Microsoft explique qu’il sera possible de transformer des modèles en provenance des catalogues Ollama, Nvidia NIM et Hugging Face. De son côté, le fournisseur a déjà optimisé des modèles DeepSeek R1, Qwen 2.5 Instruct, Phi-4 Reasoning et Mistral AI.
Certes ONNX est un format efficace pour exécuter de petits modèles, mais les autres outils de déploiements locaux de LLM – Ollama, vLLM – ne nécessitent pas d’effectuer cette procédure (et ces outils sont open source). Dans un même temps, Windows AI Foundry ne réclame pas d’abonnement à Azure pour fonctionner. Il automatise une bonne partie de la gestion des mises à jour et peut télécharger le SLM optimisé pour le « hardware cible ».
Outre la conversion, l’outillage implique la compression et le fine-tuning des SLM, dont Phi Silica. Une fois déployé, il est possible d’intégrer un LLM local à une application à travers une API compatible au format concocté par OpenAI.
Des éditeurs et des intégrateurs intéressés
La feuille de route de Foundry Local est déjà bien remplie : prise en charge de la recherche sémantique et lexicale en local, API pour se connecter à des bases de connaissances, compatibilité avec MCP pour appeler des outils locaux ou non, etc. Clairement, Microsoft ne voit pas les SLM comme des citoyens de seconde zone. Le géant du cloud a présenté des démonstrations d’agents IA locaux capables de supprimer l’arrière-plan d’une image ou encore d’extraire le texte d’une photo d’un ticket pour populer un outil de gestion de note de frais.
Une centaine de clients testent déjà Foundry Local, dont HP et One Software. Les commentaires publiés par Microsoft saluent la simplification des déploiements. Les usagers sont pour l’instant des startups, des éditeurs et des intégrateurs qui ont besoin d’exécuter des LLM en dehors du cloud pour des raisons de confidentialité. D’autres veulent déployer des cas d’usage adaptés aux déploiements hybrides. Une partie des traitements sont alors réalisés localement pour alléger la facture Cloud.