Científicos están abordando el desafío de automatizar flujos de trabajo digitales largos y repetitivos, comunes en tareas como el procesamiento de informes de gastos y la entrada de datos. Jing Wu, Daphne Barretto (Microsoft) y Yiye Chen (Georgia Institute of Technology), junto con colegas como Nicholas Gydé, Yanan Jian y Yuhang He, identificaron una falta crítica de pruebas estandarizadas para los Agentes de Uso de Computadoras (CUAs) diseñados para estos escenarios. Para solucionar esto, han creado OS-Marathon, un punto de referencia que comprende 242 tareas en dos dominios, permitiendo una evaluación rigurosa de los agentes de última generación. De manera significativa, el equipo también desarrolló un método de enseñanza notablemente eficiente, utilizando solo unos pocos ejemplos, para permitir que los agentes aprendan y luego manejen conjuntos de datos mucho más grandes e inéditos, demostrando un camino hacia una automatización verdaderamente escalable.
Este método de enseñanza eficiente, que utiliza pocos ejemplos, permite a los agentes aprender y manejar grandes volúmenes de datos no vistos previamente, abriendo la puerta a una automatización escalable.
El punto de referencia OS-Marathon para la evaluación de agentes de largo alcance es desafiante
Estas tareas, que reflejan flujos de trabajo profesionales comunes como el procesamiento de informes de gastos y la introducción de calificaciones de estudiantes, presentan un desafío significativo debido a su duración prolongada y a sus subflujos de trabajo estructurados y recurrentes. En consecuencia, diseñaron OS-Marathon para abordar específicamente esta limitación, ofreciendo una plataforma estandarizada para evaluar el rendimiento a largo plazo. Este enfoque innovador evita las limitaciones de integrar flujos de trabajo extensos directamente en los CUAs actuales debido a las restricciones de longitud del contexto. Los experimentos revelan dificultades inherentes para los agentes existentes, incluyendo incoherencia lógica en el orden de las tareas, alucinaciones en la planificación de acciones y dificultades para mantener la consistencia en los subflujos de trabajo repetitivos.
El equipo descubrió que los agentes frecuentemente ejecutan tareas de manera ilógica o intentan acciones sin basarlas en el estado actual del flujo de trabajo, lo que lleva a fallos. Esta estrategia proporciona una instrucción de doble nivel, guiando a los agentes tanto en la planificación global, orquestando el bucle repetitivo, como en la ejecución de subflujos de trabajo, dominando la lógica fundamental de cada paso. Al abstraer los flujos de trabajo en pasos clave, el método permite a los agentes de última generación adaptarse eficientemente a colecciones de datos más grandes y no vistos. El trabajo establece una definición formal para las tareas repetitivas de CUA de largo alcance e introduce un punto de referencia que abarca los dominios de informes de gastos y procesamiento de transcripciones, utilizando siete entornos de ejecución distintos.
Además, los investigadores evaluaron los CUAs líderes en OS-Marathon, revelando tres modos de fallo principales: incoherencia lógica, alucinación e inconsistencia. Los agentes a menudo lucharon con estructuras de flujo de trabajo complejas y el mantenimiento de la consistencia en los subflujos de trabajo repetitivos, lo que destaca la necesidad de capacidades de razonamiento de largo alcance mejoradas. El sitio web del proyecto, accesible en https://os-marathon.github.io/, proporciona más detalles y recursos para la comunidad de investigación.
Punto de referencia OS-Marathon para la evaluación de tareas de largo alcance
El equipo de investigación se centró específicamente en una brecha en los puntos de referencia existentes, que se centraban en gran medida en tareas de corto alcance, descuidando los desafíos que presentan los flujos de trabajo extendidos e iterativos comunes en entornos profesionales. Los experimentos emplearon dos dominios principales: un sistema de informes de gastos y una calculadora de GPA, cada uno representando un flujo de trabajo realista e intensivo en datos que requiere subprocesos repetitivos. Estos dominios se eligieron para reflejar tareas tediosas para los humanos, pero idealmente adecuadas para la automatización a través de CUAs debido a su naturaleza estructurada y recurrente. Este enfoque permite a los agentes generalizar y ejecutar flujos de trabajo similares en colecciones de datos más grandes y no vistas previamente, abordando una limitación clave de los métodos de entrenamiento tradicionales.
Los investigadores diseñaron meticulosamente tareas dentro de cada dominio, variando la longitud del horizonte y la complejidad del documento para facilitar una evaluación detallada del rendimiento del agente en múltiples niveles de dificultad. Los científicos aprovecharon sistemas web totalmente funcionales y aplicaciones de hojas de cálculo locales como entornos de ejecución, creando un campo de pruebas diverso y realista para los agentes. El equipo observó tres modos de fallo principales en los CUAs líderes cuando se enfrentaron a las tareas de OS-Marathon: incoherencia lógica en el orden de las tareas, alucinación durante la planificación de acciones y fallos en la fundamentación de las acciones en el estado actual del subflujo de trabajo. Por ejemplo, los agentes frecuentemente intentaban completar campos del sistema sin primero extraer datos relevantes de los documentos fuente, lo que provocaba errores. Este trabajo introduce un punto de referencia estandarizado, OS-Marathon, específicamente adaptado para evaluar el rendimiento de los CUA en escenarios de ejecución repetitivos de largo alcance, que comprende 242 tareas en 2 dominios y 7 entornos de ejecución distintos. El sitio web del proyecto, accesible en https://os-marathon.github.io/, proporciona más detalles y recursos para la comunidad de investigación.
El punto de referencia OS-Marathon enfatiza el rendimiento a largo plazo del agente con desafíos
Los experimentos revelaron que los desafíos surgen predominantemente del volumen de instancias de datos y la complejidad del procesamiento de cada instancia individual, particularmente cuando se trata de archivos PDF de varias páginas y diseños de documentos densos. Los niveles 1 y 2 se concentran en capacidades fundamentales, mientras que los niveles 3 y 4 simulan escenarios realistas con mayores volúmenes de recibos, desafiando a los agentes a mantener el contexto durante horizontes de ejecución más largos. De manera similar, el dominio de Transcripciones presenta tres niveles determinados por el número de curso y la complejidad del diseño, progresando de archivos PDF de una sola página y una sola columna a documentos de varias páginas con diseños variables. Los datos muestran que la carga de trabajo aumenta con la dificultad, pasando de decenas de cursos en los niveles inferiores a cientos en los niveles más avanzados.
Los recibos sintéticos se generaron a través de Modelos de Lenguaje Grandes (LLM) y se representaron con plantillas para crear líneas de tiempo coherentes. El dominio de Transcripciones comprende 52 tareas reales y 30 tareas de transcripciones sintéticas, aprovechando plantillas preconstruidas y perfiles de estudiantes sintetizados. Los resultados demuestran la eficacia de esta estrategia de construcción de tareas para crear un punto de referencia diverso y desafiante para la evaluación de CUA. Para ir más allá de las simples tasas de éxito binarias, los investigadores introdujeron la Precisión del Subflujo de Trabajo (SWA), una métrica novedosa que cuantifica el rendimiento del agente en secuencias de acción extendidas. SWA se calcula como el número de subflujos de trabajo ejecutados correctamente dividido por el número total de subflujos de trabajo (n/N), proporcionando una medición detallada de la confiabilidad de un agente en tareas de largo alcance. El avance ofrece un método para construir una demostración condensada utilizando solo unos pocos ejemplos, lo que permite a los agentes ejecutar eficazmente flujos de trabajo similares en colecciones de datos no vistas más grandes.
El punto de referencia OS-Marathon prueba la evitación de repetición a largo plazo del agente
La experimentación exhaustiva reveló las dificultades inherentes que estas tareas de largo alcance presentan para los agentes de última generación actuales, y muchos no lograron tener éxito incluso en los niveles más simples. Sin embargo, la aplicación del método de demostración propuesto, particularmente cuando se combina con el marco AgentS2.5 y GPT-5, mejoró significativamente el rendimiento, demostrando su eficacia para facilitar el aprendizaje del agente. Los autores reconocen las limitaciones en el alcance del punto de referencia, que actualmente se centra en las tareas de los niveles 1 y 2, y el costo computacional de la evaluación a gran escala. La investigación futura se centrará en extender OS-Marathon para incluir los niveles 3 y 4, que representan desafíos más complejos para los CUA.
El equipo también tiene la intención de explorar métodos para reducir aún más el costo de la creación de demostraciones y mejorar la generalización de los agentes en diversos flujos de trabajo. Estos hallazgos destacan la importancia de los puntos de referencia dedicados para evaluar las capacidades de los agentes de largo alcance y sugieren que las técnicas de demostración enfocadas pueden mejorar sustancialmente el rendimiento en tareas estructuradas y repetitivas. Este trabajo contribuye al avance de los CUA prácticos y confiables para automatizar flujos de trabajo tediosos en entornos profesionales.
