Microsoft wprowadził Fara-7B, kompaktowego, ale potężnego agenta sztucznej inteligencji przeznaczonego do automatyzacji zadań bezpośrednio na komputerze użytkownika. Ten model zawierający 7 miliardów parametrów reprezentuje znaczącą zmianę w dostępności sztucznej inteligencji, oferując wydajność porównywalną z większymi systemami chmurowymi, takimi jak GPT-4o, ale bez takich samych wymagań dotyczących prywatności i zasobów.
Przejście na sztuczną inteligencję na urządzeniu
Przez wiele lat zaawansowana sztuczna inteligencja wymagała ogromnej infrastruktury serwerowej. Fara-7B zmienia to, udowadniając, że złożoną automatyzację można wykonać lokalnie na standardowym sprzęcie. Ma to istotne konsekwencje dla firm zajmujących się danymi wrażliwymi, ponieważ eliminuje ryzyko wycieku informacji z bezpiecznej sieci. Branże takie jak opieka zdrowotna (HIPAA) i finanse (GLBA) często wymagają ścisłej kontroli danych; Fara-7B ułatwia tę kontrolę.
Jak Fara-7B „widzi” Internet
W przeciwieństwie do tradycyjnych agentów AI, którzy opierają się na ukrytych strukturach kodu, Fara-7B interpretuje strony internetowe w taki sam sposób, jak ludzie: analizując zrzuty ekranu. Określa, gdzie kliknąć, wpisać lub przewinąć, korzystając z danych wizualnych na poziomie pikseli. Takie podejście pozwala mu działać nawet na stronach internetowych z celowo zaciemnionym kodem, co pozwala na szerszą kompatybilność.
Ta „suwerenność pikseli”, jak opisuje starszy menedżer produktu Microsoft Research, Yash Lara, oznacza, że całe przetwarzanie pozostaje na urządzeniu użytkownika, co zwiększa prywatność i bezpieczeństwo.
Wydajność i wydajność
Fara-7B wykazała już wysoką wydajność w testach porównawczych. Na platformie WebVoyager osiągnął wskaźnik powodzenia zadań na poziomie 73,5%, przewyższając GPT-4o (65,1%) i UI-TARS-1.5-7B (66,4%). Co bardziej imponujące, wykonuje zadania w około połowie kroków w porównaniu do modelu UI-TARS-1.5-7B (16 kroków w porównaniu z 41).
Ochrona i kontrola użytkownika
Pomimo swoich możliwości Fara-7B nie jest pozbawiona ograniczeń. Jak każda inna sztuczna inteligencja może czasami dawać niedokładne wyniki lub mieć trudności ze skomplikowanymi instrukcjami. Aby rozwiązać ten problem, Microsoft zintegrował „punkty krytyczne” — momenty, w których sztuczna inteligencja wstrzymuje się i prosi użytkownika o zgodę przed podjęciem nieodwracalnych działań (takich jak wysłanie wiadomości e-mail).
Kluczem jest zrównoważenie bezpieczeństwa i użyteczności. Interfejs magnetyczny firmy Microsoft został zaprojektowany w celu ułatwienia interakcji człowiek-sztuczna inteligencja, zapobiegając zmęczeniu asercjami i zapewniając kontrolę.
Moc destylacji
Rozwój Fara-7B opiera się na technice zwanej destylacją wiedzy, w której możliwości dużych systemów sztucznej inteligencji są kondensowane w mniejszych, bardziej wydajnych modelach. Zamiast kosztownych ręcznych adnotacji firma Microsoft zastosowała syntetyczny potok danych, w którym jeden agent AI („Orkiestrator”) planował zadania, a innemu („WebSurferowi”) przeszukiwał strony internetowe. Wygenerowało to 145 000 pomyślnych problemów przykładowych, które następnie wykorzystano do szkolenia Fara-7B.
Sam model jest zbudowany na bazie Qwen2.5-VL-7B, wybranego ze względu na możliwość łączenia instrukcji tekstowych z elementami wizualnymi. To pokazuje, jak można nauczyć się zaawansowanych zachowań w małym pakiecie, bez skomplikowanego środowiska wykonawczego.
Dalszy rozwój
Microsoft planuje skupić się na tworzeniu mądrzejszych agentów, a nie tylko większych. Przyszłe badania będą dotyczyć uczenia się przez wzmacnianie w izolowanych środowiskach, co umożliwi modelowi uczenie się metodą prób i błędów w czasie rzeczywistym.
Model Fara-7B jest obecnie dostępny w firmach Hugging Face i Microsoft Foundry na licencji MIT, ale Microsoft ostrzega, że najlepiej nadaje się do prototypowania i testowania, a nie do wdrożeń o znaczeniu krytycznym.
Choć licencja pozwala na wykorzystanie komercyjne, model nie jest jeszcze gotowy do użytku produkcyjnego. Zachęcamy do eksperymentowania i opracowywania koncepcji, ale do wdrażania w świecie rzeczywistym należy podchodzić ostrożnie.
