Microsoft ha presentato Fara-7B, un agente di intelligenza artificiale compatto ma potente progettato per automatizzare le attività direttamente sul computer dell’utente. Questo modello da 7 miliardi di parametri rappresenta un cambiamento significativo nell’accessibilità dell’intelligenza artificiale, offrendo prestazioni che rivaleggiano con sistemi più grandi basati su cloud come GPT-4o, ma senza le stesse esigenze di privacy o risorse.

Il passaggio all’intelligenza artificiale integrata nel dispositivo

Per anni, l’intelligenza artificiale avanzata ha richiesto un’enorme infrastruttura di server. Fara-7B cambia la situazione dimostrando che l’automazione complessa può essere eseguita localmente, sull’hardware di tutti i giorni. Ciò ha importanti implicazioni per le aziende che gestiscono dati sensibili, poiché elimina il rischio che le informazioni lascino una rete sicura. Settori come quello sanitario (HIPAA) e quello finanziario (GLBA) spesso richiedono un rigoroso controllo dei dati; Fara-7B lo rende più facile da applicare.

Come Fara-7B “vede” il Web

A differenza dei tradizionali agenti di intelligenza artificiale che si affidano a strutture di codice nascoste, Fara-7B interpreta le pagine web come fanno gli esseri umani: analizzando gli screenshot. Identifica dove fare clic, digitare o scorrere utilizzando dati visivi a livello di pixel. Questo approccio gli consente di funzionare anche su siti Web con codice volutamente oscurato, garantendo una compatibilità più ampia.

Questa “sovranità dei pixel”, come descritta dal Senior PM Lead di Microsoft Research Yash Lara, significa che tutta l’elaborazione rimane sul dispositivo dell’utente, migliorando la privacy e la sicurezza.

Prestazioni ed efficienza

Fara-7B ha già dimostrato ottime prestazioni nei test benchmark. Sulla piattaforma WebVoyager, ha raggiunto un tasso di successo delle attività del 73,5%, superando GPT-4o (65,1%) e UI-TARS-1.5-7B (66,4%). Ancora più impressionante, completa le attività utilizzando circa la metà del numero di passaggi rispetto al modello UI-TARS-1.5-7B (16 passaggi contro 41).

Tutele e controllo utente

Nonostante le sue capacità, Fara-7B non è privo di limitazioni. Come altre IA, può occasionalmente produrre risultati imprecisi o avere difficoltà con istruzioni complesse. Per risolvere questo problema, Microsoft ha integrato i “punti critici” – momenti in cui l’intelligenza artificiale si ferma e richiede l’approvazione dell’utente prima di intraprendere azioni irreversibili (ad esempio, l’invio di un’e-mail).

La chiave è bilanciare la sicurezza con l’usabilità. La Magentic-UI di Microsoft è progettata per facilitare queste interazioni uomo-intelligenza artificiale, prevenendo l’affaticamento da approvazione e garantendo al tempo stesso il controllo.

Il potere della distillazione

Lo sviluppo di Fara-7B si basa su una tecnica chiamata distillazione della conoscenza, in cui le capacità di grandi sistemi di intelligenza artificiale sono condensate in modelli più piccoli ed efficienti. Invece di costose annotazioni umane, Microsoft ha utilizzato una pipeline di dati sintetici, in cui un agente AI (“Orchestrator”) pianificava le attività e indirizzava un altro (“WebSurfer”) a navigare sul web. Ciò ha generato 145.000 esempi di attività di successo, che sono stati poi utilizzati per addestrare Fara-7B.

Il modello stesso è basato su Qwen2.5-VL-7B, selezionato per la sua capacità di collegare istruzioni di testo a elementi visivi. Ciò mostra come sia possibile apprendere un comportamento avanzato in un piccolo pacchetto senza complesse impalcature di runtime.

Sviluppo futuro

Microsoft prevede di concentrarsi sul rendere i suoi agenti più intelligenti, non solo più grandi. La ricerca futura esplorerà l’apprendimento per rinforzo in ambienti sandbox, consentendo al modello di apprendere da tentativi ed errori in tempo reale.

Il modello Fara-7B è ora disponibile su Hugging Face e Microsoft Foundry con licenza MIT, ma Microsoft avverte che è più adatto per la prototipazione e i test piuttosto che per implementazioni mission-critical.

Anche se la licenza ne consente l’uso commerciale, il modello non è ancora pronto per la produzione. La sperimentazione e lo sviluppo di prove di concetto sono incoraggiati, ma l’implementazione nel mondo reale dovrebbe essere affrontata con cautela.