Microsoft telah meluncurkan Fara-7B, agen kecerdasan buatan yang ringkas namun kuat yang dirancang untuk mengotomatisasi tugas langsung di komputer pengguna. Model parameter 7 miliar ini mewakili perubahan signifikan dalam aksesibilitas AI, menawarkan kinerja yang menyaingi sistem berbasis cloud yang lebih besar seperti GPT-4o, namun tanpa privasi atau tuntutan sumber daya yang sama.
Peralihan ke AI Pada Perangkat
Selama bertahun-tahun, AI yang canggih membutuhkan infrastruktur server yang besar. Fara-7B mengubahnya dengan membuktikan bahwa otomatisasi kompleks dapat berjalan secara lokal, pada perangkat keras sehari-hari. Hal ini mempunyai implikasi besar bagi bisnis yang menangani data sensitif, karena menghilangkan risiko informasi meninggalkan jaringan yang aman. Industri seperti layanan kesehatan (HIPAA) dan keuangan (GLBA) sering kali memerlukan kontrol data yang ketat; Fara-7B membuatnya lebih mudah untuk ditegakkan.
Bagaimana Fara-7B “Melihat” Web
Tidak seperti agen AI tradisional yang mengandalkan struktur kode tersembunyi, Fara-7B menafsirkan halaman web seperti manusia: dengan menganalisis tangkapan layar. Ini mengidentifikasi tempat untuk mengklik, mengetik, atau menggulir menggunakan data visual tingkat piksel. Pendekatan ini memungkinkannya bekerja bahkan pada situs web dengan kode yang sengaja dikaburkan, sehingga memastikan kompatibilitas yang lebih luas.
“Kedaulatan piksel” ini, sebagaimana dijelaskan oleh Pimpinan PM Senior Microsoft Research Yash Lara, berarti semua pemrosesan tetap berada di perangkat pengguna, sehingga meningkatkan privasi dan keamanan.
Performa dan Efisiensi
Fara-7B telah menunjukkan kinerja yang kuat dalam pengujian benchmark. Pada platform WebVoyager, ia mencapai tingkat keberhasilan tugas sebesar 73,5%, mengungguli GPT-4o (65,1%) dan UI-TARS-1,5-7B (66,4%). Yang lebih mengesankan, ia menyelesaikan tugas dengan menggunakan sekitar setengah jumlah langkah dibandingkan dengan model UI-TARS-1.5-7B (16 langkah vs 41).
Perlindungan dan Kontrol Pengguna
Terlepas dari kemampuannya, Fara-7B bukannya tanpa keterbatasan. Seperti AI lainnya, terkadang AI memberikan hasil yang tidak akurat atau kesulitan dengan instruksi yang rumit. Untuk mengatasi hal ini, Microsoft mengintegrasikan “Titik Kritis” – momen di mana AI berhenti sejenak dan meminta persetujuan pengguna sebelum mengambil tindakan yang tidak dapat diubah (misalnya, mengirim email).
Kuncinya adalah menyeimbangkan keamanan dengan kegunaan. Magentic-UI Microsoft dirancang untuk memfasilitasi interaksi manusia-AI ini, mencegah kelelahan persetujuan sekaligus memastikan kontrol.
Kekuatan Distilasi
Pengembangan Fara-7B bergantung pada teknik yang disebut penyulingan pengetahuan, dimana kemampuan sistem AI besar diringkas menjadi model yang lebih kecil dan lebih efisien. Alih-alih menggunakan anotasi manusia yang mahal, Microsoft menggunakan jalur data sintetis, di mana satu agen AI (“Orchestrator”) merencanakan tugas dan mengarahkan yang lain (“WebSurfer”) untuk menjelajahi web. Ini menghasilkan 145.000 contoh tugas yang berhasil, yang kemudian digunakan untuk melatih Fara-7B.
Modelnya sendiri dibangun di atas Qwen2.5-VL-7B, dipilih karena kemampuannya menghubungkan instruksi teks ke elemen visual. Hal ini menunjukkan bagaimana perilaku tingkat lanjut dapat dipelajari dalam paket kecil tanpa scaffolding runtime yang rumit.
Perkembangan Masa Depan
Microsoft berencana untuk fokus menjadikan agennya lebih pintar, bukan hanya lebih besar. Penelitian di masa depan akan mengeksplorasi pembelajaran penguatan di lingkungan sandbox, yang memungkinkan model belajar dari trial and error secara real-time.
Model Fara-7B sekarang tersedia di Hugging Face dan Microsoft Foundry di bawah lisensi MIT, namun Microsoft memperingatkan bahwa model ini paling cocok untuk pembuatan prototipe dan pengujian daripada penerapan yang sangat penting.
Meskipun lisensinya mengizinkan penggunaan komersial, model tersebut belum siap produksi. Eksperimen dan pengembangan pembuktian konsep dianjurkan, namun penerapan di dunia nyata harus dilakukan dengan hati-hati.
