Додому Без рубрики Fara-7B de Microsoft: automatización de IA que se ejecuta en su PC

Fara-7B de Microsoft: automatización de IA que se ejecuta en su PC

Microsoft ha presentado Fara-7B, un agente de inteligencia artificial compacto pero potente diseñado para automatizar tareas directamente en la computadora de un usuario. Este modelo de 7 mil millones de parámetros representa un cambio significativo en la accesibilidad de la IA, ya que ofrece un rendimiento que rivaliza con sistemas más grandes basados ​​en la nube como GPT-4o, pero sin las mismas demandas de privacidad o recursos.

El cambio a la IA en el dispositivo

Durante años, la IA avanzada requirió una infraestructura de servidores masiva. Fara-7B cambia esto al demostrar que la automatización compleja puede ejecutarse localmente, en hardware cotidiano. Esto tiene importantes implicaciones para las empresas que manejan datos confidenciales, ya que elimina el riesgo de que la información abandone una red segura. Industrias como la atención médica (HIPAA) y las finanzas (GLBA) a menudo requieren un control estricto de los datos; Fara-7B hace que esto sea más fácil de hacer cumplir.

Cómo Fara-7B “ve” la Web

A diferencia de los agentes de IA tradicionales que se basan en estructuras de código ocultas, Fara-7B interpreta las páginas web como lo hacen los humanos: analizando capturas de pantalla. Identifica dónde hacer clic, escribir o desplazarse utilizando datos visuales a nivel de píxel. Este enfoque le permite funcionar incluso en sitios web con código deliberadamente oculto, lo que garantiza una compatibilidad más amplia.

Esta “soberanía de píxeles”, como la describe el primer ministro principal de investigación de Microsoft, Yash Lara, significa que todo el procesamiento permanece en el dispositivo del usuario, lo que mejora la privacidad y la seguridad.

Rendimiento y eficiencia

Fara-7B ya ha demostrado un sólido rendimiento en pruebas comparativas. En la plataforma WebVoyager, logró una tasa de éxito de tareas del 73,5 %, superando a GPT-4o (65,1 %) y UI-TARS-1.5-7B (66,4 %). Lo más impresionante es que completa tareas utilizando aproximadamente la mitad de pasos en comparación con el modelo UI-TARS-1.5-7B (16 pasos frente a 41).

Salvaguardas y control de usuario

A pesar de sus capacidades, Fara-7B no está exenta de limitaciones. Al igual que otras IA, ocasionalmente puede producir resultados inexactos o tener problemas con instrucciones complejas. Para solucionar esto, Microsoft integró “Puntos críticos”: momentos en los que la IA se detiene y solicita la aprobación del usuario antes de tomar acciones irreversibles (por ejemplo, enviar un correo electrónico).

La clave es equilibrar la seguridad con la usabilidad. Magentic-UI de Microsoft está diseñada para facilitar estas interacciones entre humanos y IA, evitando la fatiga de aprobación y garantizando al mismo tiempo el control.

El poder de la destilación

El desarrollo de Fara-7B se basa en una técnica llamada destilación de conocimientos, donde las capacidades de grandes sistemas de IA se condensan en modelos más pequeños y eficientes. En lugar de costosas anotaciones humanas, Microsoft utilizó un canal de datos sintéticos, donde un agente de IA (“Orquestador”) planificó tareas y dirigió a otro (“WebSurfer”) a navegar por la web. Esto generó 145.000 ejemplos de tareas exitosas, que luego se utilizaron para entrenar a Fara-7B.

El modelo en sí está construido sobre Qwen2.5-VL-7B, seleccionado por su capacidad para conectar instrucciones de texto con elementos visuales. Esto muestra cómo se puede aprender el comportamiento avanzado en un paquete pequeño sin una compleja estructura de tiempo de ejecución.

Desarrollo futuro

Microsoft planea centrarse en hacer que sus agentes sean más inteligentes, no sólo más grandes. Las investigaciones futuras explorarán el aprendizaje por refuerzo en entornos aislados, lo que permitirá que el modelo aprenda mediante prueba y error en tiempo real.

El modelo Fara-7B ahora está disponible en Hugging Face y Microsoft Foundry bajo una licencia del MIT, pero Microsoft advierte que es más adecuado para la creación de prototipos y pruebas que para implementaciones de misión crítica.

Si bien la licencia permite el uso comercial, el modelo aún no está listo para producción. Se fomenta la experimentación y el desarrollo de pruebas de concepto, pero la implementación en el mundo real debe abordarse con precaución.

Exit mobile version