Microsoft a dévoilé Fara-7B, un agent d’intelligence artificielle compact mais puissant conçu pour automatiser les tâches directement sur l’ordinateur d’un utilisateur. Ce modèle de 7 milliards de paramètres représente un changement significatif dans l’accessibilité de l’IA, offrant des performances qui rivalisent avec les grands systèmes basés sur le cloud comme GPT-4o, mais sans les mêmes exigences en matière de confidentialité ou de ressources.
Le passage à l’IA sur appareil
Pendant des années, l’IA avancée a nécessité une infrastructure de serveur massive. Fara-7B change cela en prouvant qu’une automatisation complexe peut s’exécuter localement, sur du matériel quotidien. Cela a des implications majeures pour les entreprises traitant des données sensibles, car cela élimine le risque que les informations quittent un réseau sécurisé. Des secteurs comme la santé (HIPAA) et la finance (GLBA) nécessitent souvent un contrôle strict des données ; Fara-7B rend cela plus facile à appliquer.
Comment Fara-7B “voit” le Web
Contrairement aux agents d’IA traditionnels qui s’appuient sur des structures de code cachées, Fara-7B interprète les pages Web comme le font les humains : en analysant les captures d’écran. Il identifie où cliquer, taper ou faire défiler à l’aide de données visuelles au niveau des pixels. Cette approche lui permet de fonctionner même sur des sites Web dont le code est délibérément masqué, garantissant ainsi une compatibilité plus large.
Cette « souveraineté des pixels », telle que décrite par Yash Lara, responsable principal de Microsoft Research, signifie que tous les traitements restent sur l’appareil de l’utilisateur, améliorant ainsi la confidentialité et la sécurité.
Performances et efficacité
Fara-7B a déjà démontré de solides performances lors de tests de référence. Sur la plateforme WebVoyager, il a atteint un taux de réussite des tâches de 73,5 %, surpassant GPT-4o (65,1 %) et UI-TARS-1.5-7B (66,4 %). Plus impressionnant encore, il accomplit les tâches en utilisant environ la moitié du nombre d’étapes par rapport au modèle UI-TARS-1.5-7B (16 étapes contre 41).
Sauvegardes et contrôle des utilisateurs
Malgré ses capacités, le Fara-7B n’est pas sans limites. Comme les autres IA, elle peut parfois produire des résultats inexacts ou avoir des difficultés avec des instructions complexes. Pour résoudre ce problème, Microsoft a intégré des « points critiques » – des moments où l’IA fait une pause et demande l’approbation de l’utilisateur avant de prendre des actions irréversibles (par exemple, envoyer un e-mail).
La clé est d’équilibrer la sécurité et la convivialité. L’interface utilisateur Magentic de Microsoft est conçue pour faciliter ces interactions homme-IA, évitant ainsi la fatigue des approbations tout en garantissant le contrôle.
Le pouvoir de la distillation
Le développement de Fara-7B repose sur une technique appelée distillation des connaissances, dans laquelle les capacités des grands systèmes d’IA sont condensées en modèles plus petits et plus efficaces. Au lieu d’une annotation humaine coûteuse, Microsoft a utilisé un pipeline de données synthétiques, dans lequel un agent d’IA (« Orchestrator ») planifiait des tâches et ordonnait à un autre (« WebSurfer ») de naviguer sur le Web. Cela a généré 145 000 exemples de tâches réussies, qui ont ensuite été utilisés pour entraîner le Fara-7B.
Le modèle lui-même est construit sur Qwen2.5-VL-7B, sélectionné pour sa capacité à connecter des instructions textuelles à des éléments visuels. Cela montre comment un comportement avancé peut être appris dans un petit package sans échafaudage d’exécution complexe.
Développement futur
Microsoft prévoit de se concentrer sur la nécessité de rendre ses agents plus intelligents, et pas seulement plus grands. Les recherches futures exploreront l’apprentissage par renforcement dans des environnements sandbox, permettant au modèle d’apprendre par essais et erreurs en temps réel.
Le modèle Fara-7B est désormais disponible sur Hugging Face et Microsoft Foundry sous une licence MIT, mais Microsoft prévient qu’il est mieux adapté au prototypage et aux tests qu’aux déploiements critiques.
Bien que la licence autorise une utilisation commerciale, le modèle n’est pas encore prêt pour la production. L’expérimentation et le développement de preuves de concept sont encouragés, mais le déploiement dans le monde réel doit être abordé avec prudence.





























