Společnost Microsoft představila Fara-7B, kompaktního, ale výkonného agenta umělé inteligence určeného k automatizaci úloh přímo na počítači uživatele. Tento model se 7 miliardami parametrů představuje významný posun v dostupnosti AI a nabízí výkon srovnatelný s většími cloudovými systémy, jako je GPT-4o, ale bez stejných požadavků na soukromí a zdroje.
Přechod na AI na zařízení
Po mnoho let vyžadovala pokročilá umělá inteligence masivní serverovou infrastrukturu. Fara-7B to mění a dokazuje, že složitou automatizaci lze provádět lokálně na komoditním hardwaru. To má významné důsledky pro podniky, které nakládají s citlivými daty, protože eliminuje riziko úniku informací ze zabezpečené sítě. Odvětví jako zdravotnictví (HIPAA) a finance (GLBA) často vyžadují přísnou kontrolu dat; Fara-7B toto ovládání usnadňuje.
Jak Fara-7B „vidí“ internet
Na rozdíl od tradičních agentů umělé inteligence, kteří se spoléhají na skryté struktury kódu, Fara-7B interpretuje webové stránky stejným způsobem jako lidé: analyzuje snímky obrazovky. Určuje, kam kliknout, psát nebo posouvat pomocí vizuálních dat na úrovni pixelů. Tento přístup mu umožňuje pracovat i na webech se záměrně zatemněným kódem, což umožňuje širší kompatibilitu.
Tato „suverenita pixelů“, jak popisuje hlavní produktový manažer výzkumu společnosti Microsoft Yash Lara, znamená, že veškeré zpracování zůstává na zařízení uživatele, což zvyšuje soukromí a zabezpečení.
Výkon a efektivita
Fara-7B již prokázal vysoký výkon v benchmarkových testech. Na platformě WebVoyager dosáhl 73,5% úspěšnosti úloh, čímž překonal GPT-4o (65,1 %) a UI-TARS-1,5-7B (66,4 %). Ještě působivější je, že dokončuje úkoly v přibližně polovičních krocích ve srovnání s modelem UI-TARS-1.5-7B (16 kroků oproti 41).
Ochrana a kontrola uživatele
Navzdory svým schopnostem není Fara-7B bez omezení. Jako každá jiná umělá inteligence může občas poskytovat nepřesné výsledky nebo mít potíže se složitými instrukcemi. K vyřešení tohoto problému Microsoft integroval „Breaking Points“ – okamžiky, kdy se AI zastaví a požádá uživatele o schválení před provedením nevratných akcí (jako je odeslání e-mailu).
Klíčem je vyvážení bezpečnosti a použitelnosti. Magnetické uživatelské rozhraní společnosti Microsoft je navrženo tak, aby usnadnilo tyto interakce mezi člověkem a AI, předcházelo únavě při prosazování a poskytovalo kontrolu.
Síla destilace
Vývoj Fara-7B spoléhá na techniku zvanou znalostní destilace, kde jsou schopnosti velkých systémů umělé inteligence zhuštěny do menších, efektivnějších modelů. Namísto drahých ručních poznámek Microsoft použil syntetický datový kanál, kde jeden agent AI (“Orchestrator”) plánoval úlohy a nasměroval jiného (“WebSurfer”) k procházení webových stránek. To vytvořilo 145 000 úspěšných příkladů, které byly poté použity k výcviku Fara-7B.
Samotný model je postaven na Qwen2.5-VL-7B, zvoleném pro svou schopnost propojit textové instrukce s vizuálními prvky. To ukazuje, jak lze pokročilé chování naučit v malém balíčku bez složitého běhového prostředí.
Další vývoj
Microsoft se plánuje zaměřit na vytváření chytřejších agentů, nejen větších. Budoucí výzkum bude zkoumat posilování učení v izolovaných prostředích, což modelu umožní učit se z pokusů a omylů v reálném čase.
Model Fara-7B je nyní dostupný od Hugging Face a Microsoft Foundry pod licencí MIT, ale Microsoft varuje, že je nejvhodnější pro prototypování a testování spíše než pro kritická nasazení.
Přestože licence umožňuje komerční využití, model ještě není připraven pro produkční použití. Experimentování a vývoj koncepce jsou podporovány, ale k nasazení v reálném světě by se mělo přistupovat opatrně.
