Microsoft heeft Fara-7B onthuld, een compacte maar krachtige kunstmatige intelligentie-agent die is ontworpen om taken rechtstreeks op de computer van een gebruiker te automatiseren. Dit 7 miljard parametermodel vertegenwoordigt een significante verschuiving in de toegankelijkheid van AI en biedt prestaties die kunnen wedijveren met grotere cloudgebaseerde systemen zoals GPT-4o, maar zonder dezelfde privacy- of resourcevereisten.

De verschuiving naar AI op het apparaat

Jarenlang vereiste geavanceerde AI een enorme serverinfrastructuur. Fara-7B brengt hier verandering in door te bewijzen dat complexe automatisering lokaal kan draaien, op alledaagse hardware. Dit heeft grote gevolgen voor bedrijven die gevoelige gegevens verwerken, omdat het risico wordt geëlimineerd dat informatie een beveiligd netwerk verlaat. Industrieën als de gezondheidszorg (HIPAA) en de financiële sector (GLBA) vereisen vaak strikte gegevenscontrole; Fara-7B maakt dat gemakkelijker af te dwingen.

Hoe Fara-7B het web “ziet”.

In tegenstelling tot traditionele AI-agents die afhankelijk zijn van verborgen codestructuren, interpreteert Fara-7B webpagina’s zoals mensen dat doen: door schermafbeeldingen te analyseren. Het identificeert waar u moet klikken, typen of scrollen met behulp van visuele gegevens op pixelniveau. Dankzij deze aanpak kan het zelfs werken op websites met opzettelijk verborgen code, waardoor een bredere compatibiliteit wordt gegarandeerd.

Deze ‘pixelsoevereiniteit’, zoals beschreven door Microsoft Research Senior PM Lead Yash Lara, betekent dat alle verwerkingen op het apparaat van de gebruiker blijven staan, wat de privacy en veiligheid verbetert.

Prestaties en efficiëntie

Fara-7B heeft al sterke prestaties laten zien in benchmarktests. Op het WebVoyager-platform behaalde het een taaksuccespercentage van 73,5%, waarmee het beter presteerde dan GPT-4o (65,1%) en UI-TARS-1.5-7B (66,4%). Nog indrukwekkender is dat het taken voltooit met ongeveer de helft van het aantal stappen vergeleken met het UI-TARS-1.5-7B-model (16 stappen versus 41).

Beveiligingen en gebruikerscontrole

Ondanks zijn mogelijkheden is Fara-7B niet zonder beperkingen. Net als andere AI kan het af en toe onnauwkeurige resultaten opleveren of moeite hebben met complexe instructies. Om dit aan te pakken heeft Microsoft ‘Critical Points’ geïntegreerd: momenten waarop de AI pauzeert en om goedkeuring van de gebruiker vraagt ​​voordat onomkeerbare acties worden ondernomen (bijvoorbeeld het verzenden van een e-mail).

De sleutel is om veiligheid in evenwicht te brengen met bruikbaarheid. De Magnetic-UI van Microsoft is ontworpen om deze mens-AI-interacties te vergemakkelijken, waardoor goedkeuringsmoeheid wordt voorkomen en de controle wordt gewaarborgd.

De kracht van distillatie

De ontwikkeling van Fara-7B is gebaseerd op een techniek die kennisdistillatie wordt genoemd, waarbij de mogelijkheden van grote AI-systemen worden gecondenseerd in kleinere, efficiëntere modellen. In plaats van dure menselijke annotatie gebruikte Microsoft een synthetische datapijplijn, waarbij een AI-agent (“Orchestrator”) taken plande en een andere (“WebSurfer”) opdracht gaf om op internet te surfen. Dit leverde 145.000 succesvolle taakvoorbeelden op, die vervolgens werden gebruikt om Fara-7B te trainen.

Het model zelf is gebouwd op Qwen2.5-VL-7B, geselecteerd vanwege zijn vermogen om tekstinstructies aan visuele elementen te koppelen. Dit laat zien hoe geavanceerd gedrag kan worden geleerd in een klein pakket zonder complexe runtime-steigers.

Toekomstige ontwikkeling

Microsoft is van plan zich te concentreren op het slimmer maken van zijn agenten, en niet alleen op groter. Toekomstig onderzoek zal zich richten op versterkend leren in sandbox-omgevingen, waardoor het model in realtime kan leren van vallen en opstaan.

Het Fara-7B-model is nu beschikbaar op Hugging Face en Microsoft Foundry onder een MIT-licentie, maar Microsoft waarschuwt dat het het meest geschikt is voor prototyping en testen in plaats van voor bedrijfskritische implementaties.

Hoewel de licentie commercieel gebruik toestaat, is het model nog niet productieklaar. Experimenteren en proof-of-concept-ontwikkeling worden aangemoedigd, maar implementatie in de echte wereld moet met voorzichtigheid worden benaderd.