Microsoft hat Fara-7B vorgestellt, einen kompakten und dennoch leistungsstarken Agenten für künstliche Intelligenz, der Aufgaben direkt auf dem Computer eines Benutzers automatisieren soll. Dieses 7-Milliarden-Parameter-Modell stellt einen erheblichen Wandel in der KI-Zugänglichkeit dar und bietet eine Leistung, die mit größeren Cloud-basierten Systemen wie GPT-4o mithalten kann, jedoch ohne die gleichen Datenschutz- oder Ressourcenanforderungen.
Der Wandel zur On-Device-KI
Fortschrittliche KI erforderte jahrelang eine riesige Serverinfrastruktur. Fara-7B ändert dies, indem es beweist, dass komplexe Automatisierung lokal auf alltäglicher Hardware ausgeführt werden kann. Dies hat erhebliche Auswirkungen auf Unternehmen, die mit sensiblen Daten umgehen, da das Risiko eliminiert wird, dass Informationen ein sicheres Netzwerk verlassen. Branchen wie das Gesundheitswesen (HIPAA) und das Finanzwesen (GLBA) erfordern häufig eine strenge Datenkontrolle; Fara-7B macht die Durchsetzung einfacher.
Wie Fara-7B das Web „sieht“.
Im Gegensatz zu herkömmlichen KI-Agenten, die auf versteckten Codestrukturen basieren, interpretiert Fara-7B Webseiten auf die Art und Weise, wie Menschen es tun: durch die Analyse von Screenshots. Mithilfe visueller Daten auf Pixelebene wird ermittelt, wo geklickt, getippt oder gescrollt werden muss. Dieser Ansatz ermöglicht es, auch auf Websites mit absichtlich verdecktem Code zu funktionieren und sorgt so für eine umfassendere Kompatibilität.
Diese „Pixelsouveränität“, wie Yash Lara, Senior PM Lead bei Microsoft Research, beschreibt, bedeutet, dass die gesamte Verarbeitung auf dem Gerät des Benutzers verbleibt, was den Datenschutz und die Sicherheit verbessert.
Leistung und Effizienz
Fara-7B hat in Benchmark-Tests bereits starke Leistungen gezeigt. Auf der WebVoyager-Plattform erreichte es eine Aufgabenerfolgsquote von 73,5 % und übertraf damit GPT-4o (65,1 %) und UI-TARS-1.5-7B (66,4 %). Noch beeindruckender ist, dass Aufgaben im Vergleich zum UI-TARS-1.5-7B-Modell mit etwa halb so vielen Schritten erledigt werden (16 Schritte gegenüber 41).
Schutzmaßnahmen und Benutzerkontrolle
Trotz seiner Fähigkeiten ist Fara-7B nicht ohne Einschränkungen. Wie andere KI kann es gelegentlich zu ungenauen Ergebnissen kommen oder mit komplexen Anweisungen zu kämpfen haben. Um dieses Problem anzugehen, hat Microsoft „kritische Punkte“ integriert – Momente, in denen die KI innehält und die Zustimmung des Benutzers einfordert, bevor sie unumkehrbare Maßnahmen ergreift (z. B. das Versenden einer E-Mail).
Der Schlüssel liegt darin, Sicherheit und Benutzerfreundlichkeit in Einklang zu bringen. Die Magentic-UI von Microsoft soll diese Mensch-KI-Interaktionen erleichtern, Genehmigungsmüdigkeit vorbeugen und gleichzeitig die Kontrolle gewährleisten.
Die Kraft der Destillation
Die Entwicklung von Fara-7B basiert auf einer Technik namens Wissensdestillation, bei der die Fähigkeiten großer KI-Systeme in kleineren, effizienteren Modellen zusammengefasst werden. Anstelle teurer menschlicher Anmerkungen verwendete Microsoft eine synthetische Datenpipeline, bei der ein KI-Agent („Orchestrator“) Aufgaben plante und einen anderen („WebSurfer“) anwies, im Internet zu surfen. Dadurch wurden 145.000 erfolgreiche Aufgabenbeispiele generiert, die dann zum Training von Fara-7B verwendet wurden.
Das Modell selbst basiert auf Qwen2.5-VL-7B und wurde aufgrund seiner Fähigkeit ausgewählt, Textanweisungen mit visuellen Elementen zu verbinden. Dies zeigt, wie fortgeschrittenes Verhalten in einem kleinen Paket ohne komplexes Laufzeitgerüst erlernt werden kann.
Zukünftige Entwicklung
Microsoft plant, sich darauf zu konzentrieren, seine Agenten intelligenter und nicht nur größer zu machen. Zukünftige Forschungen werden das verstärkte Lernen in Sandbox-Umgebungen untersuchen, sodass das Modell in Echtzeit aus Versuch und Irrtum lernen kann.
Das Fara-7B-Modell ist jetzt unter einer MIT-Lizenz auf Hugging Face und Microsoft Foundry verfügbar, Microsoft weist jedoch darauf hin, dass es sich eher für Prototyping und Tests als für geschäftskritische Einsätze eignet.
Die Lizenz erlaubt zwar die kommerzielle Nutzung, das Modell ist jedoch noch nicht serienreif. Experimente und Proof-of-Concept-Entwicklung werden gefördert, der Einsatz in der Praxis sollte jedoch mit Vorsicht angegangen werden.
