Getty Images/iStockphoto
Fara-7B : Microsoft explore l’IA agentique pour manipuler les interfaces PC
Microsoft a lancé cette semaine Fara-7B, un petit modèle capable de manipuler des interfaces Web pour réaliser les tâches d’un internaute. Le géant du cloud obtient des résultats prometteurs et peu coûteux, mais laisse apercevoir le long chemin nécessaire à l’obtention d’un agent IA infusé dans un ordinateur.
Alors qu’OpenAI, Google et Anthropic font la course pour rester les champions de l’IA générative, les équipes R&D de Microsoft cherchent, à la manière de celles d’IBM, à entraîner des petits modèles de langage (Small Language Model).
Cette fois-ci, Microsoft s’intéresse à l’IA agentique, mais surtout au mode « Computer Use ». Cette expression désigne la capacité pour son modèle de langage open weight (licence MIT), nommé Fara-7B, de prendre le contrôle de l’interface d’un ordinateur. De cliquer sur des boutons et de frapper des mots sur un clavier virtuel à la place d’un humain.
Sans surprise, le géant du cloud entend faciliter son déploiement à même les PC Copilot (Windows 11), depuis Microsoft Foundry. Il s’agit d’exécuter des tâches comme le remplissage de champs, la réservation de voyage, la gestion de comptes applicatifs, etc.
Fara-7B demeure un outil expérimental à exécuter de préférence dans une sandbox et en lien avec l’outil Magentic-One. Et pour cause, Microsoft Frontier, le laboratoire de recherche en IA du fournisseur, cherche à prouver l’efficacité d’une nouvelle approche d’entraînement.
Anthropic est l’un des premiers à avoir tenté de donner le contrôle d’un ordinateur à un LLM. Cela semble moins la priorité des papas de Claude aujourd’hui.
Il faut dire que créer un agent IA capable de manipuler à la manière d’un humain des interfaces utilisateur est complexe. Selon les chercheurs de Microsoft, cela nécessite de collecter des données sur l’usage des logiciels, d’interpréter ces données visuelles afin de tenter de reproduire des tâches souvent exécutées au milieu d’une multitude de fenêtres qui se chevauchent.
Contrairement aux textes disponibles publiquement sur le Web, les données sur l’utilisation des UI n’existent pas en masse. Microsoft pourrait faire appel à des humains pour collecter ces informations d’utilisation, mais ce serait « prohibitif et lent ».
FaraGen, le véritable apport de Microsoft
Microsoft se tourne donc, à nouveau, vers les données synthétiques. Pour autant, son équipe de recherche n’a pas considéré que les méthodes existantes suffisaient. D’où la création de FaraGen, « un moteur de génération de données synthétiques évolutif ».
FaraGen est lui-même un système multiagent basé sur l’outil Magentic-One et le framework Autogen.
Un agent IA analyse des URL afin de proposer des tâches sous forme de prompts divisées en deux catégories : la recherche d’information et la réalisation d’actions. Un autre explore les interfaces des sites Web pour établir les étapes de la tâche. Un LLM est sollicité pour les raffiner. Pour cela, les chercheurs se sont appuyés sur deux bases de données d’URL : Tranco et ClueWeb22.
Ensuite, plusieurs agents IA résolvent en parallèle les tâches soumises. Ils agissent par deux : un orchestrateur et un « Websurfeur ». L’orchestrateur décompose les actions que le Websurfeur doit accomplir. Le résultat est vérifié par l’orchestrateur qui envoie la suite des instructions. L’objectif est de générer « une large collection de trajectoires candidates », c’est-à-dire plusieurs moyens pour accomplir les tâches.
Enfin, trois LLM « vérificateurs » (as-a-Judge) interviennent. Un premier compare les trajectoires aux intentions contenues dans le prompt originel. Le deuxième définit des « critères de complétion et note les trajectoires ». Un LLM multimodal doit filtrer les hallucinations et les erreurs d’exécutions et valider à partir de captures d’écran que les chemins sont conformes.
Ainsi, les chercheurs de Microsoft ont généré 145 000 trajectoires de tâches liées à l’achat de produits, la recherche d’informations et la réservation de services ou de tickets à travers 70 000 domaines Web uniques. Ils estiment que chaque flux complet aurait coûté 1 dollar avec GPT-5. Au total, le jeu de données contiendrait un million d’étapes, en moyenne 19 par tâche.
Ces trajectoires ont ensuite servi à entraîner le modèle de 7 milliards de paramètres dans un processus de distillation de connaissances.
Un raffinage plutôt qu’un entraînement complet
Ici, les chercheurs ont choisi comme base Qwen 2.5-VL, un VLM (modèle de langage-vision). Ils justifient le choix du modèle open weight chinois développé par Alibaba « en raison de ses bonnes performances dans les tâches d’ancrage et son long contexte (128 000 tokens) ».
Ils l’ont nourri des tâches proposées, des captures d’écran de l’agent Websurfeur, des raisonnements et des actions des différents LLM sollicités dans un processus de fine-tuning supervisé. Celui-ci repose sur une séquence d’observation, de raisonnement, puis d’action (« observe-think-act »).
Comme 145 000 exemples ne suffisaient pas, les chercheurs ont utilisé un autre processus de génération de données synthétiques. Il fallait que modèle final comprenne comment naviguer dans les pages Web. Des données ont également été générées pour éviter les tâches dangereuses, ainsi qu’une série de questions-réponses. Celles-ci amélioreraient l’extraction d’information et la réduction des hallucinations. Finalement, le jeu d’entraînement contient 1,8 million d’échantillons.
Chaque étape d’une trajectoire est traitée comme un échantillon d’entraînement. Le modèle utilise l’historique des observations et des actions pour prédire les coordonnées absolues de l’étape suivante. Celles-ci sont représentées sous forme de tokens dans le vocabulaire du modèle. Lors de la prochaine étape, les informations les plus récentes et les éléments passés les plus pertinents sont utilisés.
Puisque ce n’est pas un réentraînement complet, mais plutôt un effort de fine-tuning, il a suffi de 64 GPU Nvidia H100 et de deux jours et demi entre les 26 et 29 octobre 2025 pour obtenir le résultat final.
À l’inférence, Fara-7B manipule des captures d’écran et l’objectif fourni dans le prompt de l’utilisateur ainsi que toutes les étapes intermédiaires de réflexion.
Fara-7B : pas aussi performant que GPT-5, mais bien moins cher
Sur les benchmarks conçus pour les agents IA Web (WebVoyager, Online-Mind2Web et DeepShop), Fara-7B est meilleur que GPT-4o et que d’autres modèles de sa catégorie (GLM-4.1V-9B-Thinking et UI-TARS-1.5-7B). En revanche, les modèles de raisonnement GPT-5 et o3 s’en sortent mieux.
En sus confronter aux frameworks d’évaluation existants consacrés aux modèles de type « Computer Use », les chercheurs ont concocté leur propre parangonnage : WebTailBench.
Cette série de tests « se concentre sur 11 tâches du monde réel » : réserver un billet pour un événement, un restaurant, comparer les prix sur différents sites d’e-commerce, postuler un emploi, trouver un logement à louer ou à acheter, etc. Le même schéma se répète : Fara-7B surpasse ses concurrents hormis GPT-5 et o3 qui sont loin devant.
Néanmoins, le coût d’exécution de Fara-7B par tâche est largement inférieur aux modèles OpenAI : 0,025 dollar, contre 0,30 dollar en moyenne. Quand GPT-5 génère 13 000 tokens pour accomplir une tâche, Fara-7B n’en utilise que 1100. Sans oublier qu’il peut s’exécuter localement, sur un NPU.
Des failles à combler
Fara-7B est loin d’être parfait, reconnaissent les ingénieurs de Microsoft. Les testeurs humains lui donnent une note de précision de 62 %. Il ne peut pas faire de glisser-déposer ou accomplir des actions qui réclament un temps de réaction rapide.
« Fara-7B, comme d’autres modèles CUA, est confronté à des problèmes tels qu’une précision réduite dans les tâches plus complexes, des erreurs dans le suivi des instructions, une résistance limitée aux changements de l’environnement et une susceptibilité aux hallucinations », écrivent-ils.
D’où la recommandation d’exécuter Fara-7B sous supervision humaine, sans données sensibles ou de secteurs régulés (finance, santé, légale). Il vaut mieux, par ailleurs, bloquer les domaines Web réputés dangereux. Fara-7B ne serait pas prêt pour un usage commercial, sans « davantage de tests et de développement ».
Néanmoins, l’équipe Frontier de Microsoft y voit un potentiel, au vu des résultats évoqués plus haut. Pour les mêmes tâches, ces modèles de type « Computer Use » sont moins sujets aux hallucinations que les agents IA Web s’appuyant sur des modèles de raisonnement. Tout en étant moins cher. À l’avenir, elle travaillera sur la robustesse d’un modèle plus grand face à la diversité des sites Web et facilitera les interactions avec les humains.
