Додому Без рубрики Fara-7B firmy Microsoft: AI Automation działająca na Twoim komputerze

Fara-7B firmy Microsoft: AI Automation działająca na Twoim komputerze

Microsoft wprowadził Fara-7B, kompaktowego, ale potężnego agenta sztucznej inteligencji przeznaczonego do automatyzacji zadań bezpośrednio na komputerze użytkownika. Ten model zawierający 7 miliardów parametrów reprezentuje znaczącą zmianę w dostępności sztucznej inteligencji, oferując wydajność porównywalną z większymi systemami chmurowymi, takimi jak GPT-4o, ale bez takich samych wymagań dotyczących prywatności i zasobów.

Przejście na sztuczną inteligencję na urządzeniu

Przez wiele lat zaawansowana sztuczna inteligencja wymagała ogromnej infrastruktury serwerowej. Fara-7B zmienia to, udowadniając, że złożoną automatyzację można wykonać lokalnie na standardowym sprzęcie. Ma to istotne konsekwencje dla firm zajmujących się danymi wrażliwymi, ponieważ eliminuje ryzyko wycieku informacji z bezpiecznej sieci. Branże takie jak opieka zdrowotna (HIPAA) i finanse (GLBA) często wymagają ścisłej kontroli danych; Fara-7B ułatwia tę kontrolę.

Jak Fara-7B „widzi” Internet

W przeciwieństwie do tradycyjnych agentów AI, którzy opierają się na ukrytych strukturach kodu, Fara-7B interpretuje strony internetowe w taki sam sposób, jak ludzie: analizując zrzuty ekranu. Określa, gdzie kliknąć, wpisać lub przewinąć, korzystając z danych wizualnych na poziomie pikseli. Takie podejście pozwala mu działać nawet na stronach internetowych z celowo zaciemnionym kodem, co pozwala na szerszą kompatybilność.

Ta „suwerenność pikseli”, jak opisuje starszy menedżer produktu Microsoft Research, Yash Lara, oznacza, że ​​całe przetwarzanie pozostaje na urządzeniu użytkownika, co zwiększa prywatność i bezpieczeństwo.

Wydajność i wydajność

Fara-7B wykazała już wysoką wydajność w testach porównawczych. Na platformie WebVoyager osiągnął wskaźnik powodzenia zadań na poziomie 73,5%, przewyższając GPT-4o (65,1%) i UI-TARS-1.5-7B (66,4%). Co bardziej imponujące, wykonuje zadania w około połowie kroków w porównaniu do modelu UI-TARS-1.5-7B (16 kroków w porównaniu z 41).

Ochrona i kontrola użytkownika

Pomimo swoich możliwości Fara-7B nie jest pozbawiona ograniczeń. Jak każda inna sztuczna inteligencja może czasami dawać niedokładne wyniki lub mieć trudności ze skomplikowanymi instrukcjami. Aby rozwiązać ten problem, Microsoft zintegrował „punkty krytyczne” — momenty, w których sztuczna inteligencja wstrzymuje się i prosi użytkownika o zgodę przed podjęciem nieodwracalnych działań (takich jak wysłanie wiadomości e-mail).

Kluczem jest zrównoważenie bezpieczeństwa i użyteczności. Interfejs magnetyczny firmy Microsoft został zaprojektowany w celu ułatwienia interakcji człowiek-sztuczna inteligencja, zapobiegając zmęczeniu asercjami i zapewniając kontrolę.

Moc destylacji

Rozwój Fara-7B opiera się na technice zwanej destylacją wiedzy, w której możliwości dużych systemów sztucznej inteligencji są kondensowane w mniejszych, bardziej wydajnych modelach. Zamiast kosztownych ręcznych adnotacji firma Microsoft zastosowała syntetyczny potok danych, w którym jeden agent AI („Orkiestrator”) planował zadania, a innemu („WebSurferowi”) przeszukiwał strony internetowe. Wygenerowało to 145 000 pomyślnych problemów przykładowych, które następnie wykorzystano do szkolenia Fara-7B.

Sam model jest zbudowany na bazie Qwen2.5-VL-7B, wybranego ze względu na możliwość łączenia instrukcji tekstowych z elementami wizualnymi. To pokazuje, jak można nauczyć się zaawansowanych zachowań w małym pakiecie, bez skomplikowanego środowiska wykonawczego.

Dalszy rozwój

Microsoft planuje skupić się na tworzeniu mądrzejszych agentów, a nie tylko większych. Przyszłe badania będą dotyczyć uczenia się przez wzmacnianie w izolowanych środowiskach, co umożliwi modelowi uczenie się metodą prób i błędów w czasie rzeczywistym.

Model Fara-7B jest obecnie dostępny w firmach Hugging Face i Microsoft Foundry na licencji MIT, ale Microsoft ostrzega, że ​​najlepiej nadaje się do prototypowania i testowania, a nie do wdrożeń o znaczeniu krytycznym.

Choć licencja pozwala na wykorzystanie komercyjne, model nie jest jeszcze gotowy do użytku produkcyjnego. Zachęcamy do eksperymentowania i opracowywania koncepcji, ale do wdrażania w świecie rzeczywistym należy podchodzić ostrożnie.

Exit mobile version