Los nuevos agentes CoAct-1 de Salesforce no solo apuntan y hacen clic: escriben código para realizar tareas más rápido y con mayores tasas de éxito.

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.
Investigadores de Salesforce y la Universidad del Sur de California han desarrollado una nueva técnica que brinda a los agentes que utilizan computadoras la capacidad de ejecutar código mientras navegan por interfaces gráficas de usuario (GUI) , es decir, escribir scripts mientras también mueven un cursor y/o hacen clic en los botones de una aplicación, combinando lo mejor de ambos enfoques para acelerar los flujos de trabajo y reducir los errores.
Este enfoque híbrido permite que un agente evite los clics frágiles e ineficientes del mouse para realizar tareas que pueden realizarse mejor mediante codificación.
El sistema, llamado CoAct-1 , establece un nuevo estado del arte en cuanto a parámetros de referencia de agentes clave, superando a otros métodos y requiriendo significativamente menos pasos para realizar tareas complejas en una computadora.
Esta actualización puede allanar el camino para una automatización de agentes más sólida y escalable con un potencial significativo para aplicaciones del mundo real.
La escalabilidad de la IA alcanza sus límites
Los límites de potencia, el aumento de los costos de los tokens y los retrasos en la inferencia están transformando la IA empresarial. Únase a nuestro exclusivo salón para descubrir cómo los mejores equipos:
- Convertir la energía en una ventaja estratégica
- Arquitectura de inferencia eficiente para obtener ganancias de rendimiento reales
- Cómo desbloquear el ROI competitivo con sistemas de IA sostenibles
Reserva tu lugar para estar a la vanguardia : https://bit.ly/4mwGngO
Los agentes que utilizan computadoras generalmente se basan en modelos de visión-lenguaje y visión-lenguaje-acción (VLM o VLA) para percibir una pantalla y realizar acciones, imitando cómo una persona usa un mouse y un teclado.
Si bien estos agentes basados en GUI pueden realizar una variedad de tareas, a menudo fallan cuando se enfrentan a flujos de trabajo largos y complejos, especialmente en aplicaciones con menús y opciones densos , como las suites de productividad de oficina.
Por ejemplo, una tarea que implica localizar una tabla específica en una hoja de cálculo, filtrarla y guardarla como un archivo nuevo puede implicar una secuencia larga y precisa de manipulaciones de GUI.
Aquí es donde entra en juego la fragilidad. «En estos escenarios, los agentes existentes suelen tener dificultades con la ambigüedad visual básica (por ejemplo, al distinguir entre iconos o elementos de menú visualmente similares) y la probabilidad acumulada de cometer cualquier error a largo plazo», escriben los investigadores en su artículo . «Un solo clic erróneo o un elemento de la interfaz de usuario malinterpretado pueden arruinar toda la tarea».
Para abordar estos desafíos, muchos investigadores se han centrado en ampliar los agentes GUI con planificadores de alto nivel.
Estos sistemas utilizan modelos de razonamiento potentes como el o3 de OpenAI para descomponer el objetivo de alto nivel de un usuario en una secuencia de subtareas más pequeñas y manejables.
Si bien este enfoque estructurado mejora el rendimiento, no resuelve el problema de navegar por los menús y hacer clic en los botones, incluso para operaciones que podrían realizarse de manera más directa y confiable con unas pocas líneas de código.
Para resolver estas limitaciones, los investigadores crearon CoAct-1 (Computer-using Agent with Coding as Actions), un sistema diseñado para “combinar las fortalezas intuitivas y similares a las humanas de la manipulación de la GUI con la precisión, confiabilidad y eficiencia de la interacción directa del sistema a través del código”.
El sistema está estructurado como un equipo de tres agentes especializados que trabajan juntos: un orquestador, un programador y un operador de GUI.

El orquestador actúa como planificador central o gestor de proyectos. Analiza el objetivo general del usuario, lo divide en subtareas y asigna cada una al agente más adecuado para el trabajo. Puede delegar operaciones de backend, como la gestión de archivos o el procesamiento de datos, al programador, quien escribe y ejecuta scripts de Python o Bash.
Para las tareas de interfaz que requieren hacer clic en botones o navegar por interfaces visuales, se recurre al Operador GUI, un agente basado en VLM.
“Esta delegación dinámica permite a CoAct-1 eludir estratégicamente secuencias GUI ineficientes a favor de una ejecución de código robusta y única cuando sea apropiado, mientras que aún aprovecha la interacción visual para tareas donde es indispensable”, afirma el documento.
El flujo de trabajo es iterativo. Tras completar una subtarea, el programador o el operador de la GUI envía un resumen y una captura de pantalla del estado actual del sistema al orquestador, quien decide el siguiente paso o finaliza la tarea.
El agente programador utiliza un LLM para generar su código y envía comandos a un intérprete de código para probar y refinar su código en múltiples rondas.
De forma similar, el operador de la GUI utiliza un intérprete de acciones que ejecuta sus comandos (p. ej., clics del ratón, escritura) y devuelve la captura de pantalla resultante, lo que le permite ver el resultado de sus acciones. El orquestador toma la decisión final sobre si la tarea debe continuar o detenerse.

Los investigadores probaron CoAct-1 en OSWorld , un punto de referencia integral que incluye 369 tareas del mundo real en navegadores, IDE y aplicaciones de oficina.
Los resultados muestran que CoAct-1 establece un nuevo estado del arte, logrando una tasa de éxito del 60,76%.
Las mejoras de rendimiento fueron más significativas en las categorías en las que el control programático ofrece una clara ventaja, como las tareas a nivel de sistema operativo y los flujos de trabajo de múltiples aplicaciones.
Por ejemplo, considere una tarea a nivel de sistema operativo como encontrar todos los archivos de imagen dentro de una estructura de carpetas compleja, redimensionarlos y luego comprimir todo el directorio en un solo archivo.
Un agente basado puramente en GUI necesitaría realizar una secuencia larga y frágil de clics y arrastres , abriendo carpetas, seleccionando archivos y navegando por menús, con una alta probabilidad de error en cada paso.
CoAct-1, por el contrario, puede delegar todo este flujo de trabajo a su agente Programador, que puede realizar la tarea con un único y robusto script.

Además de una mayor tasa de éxito, el sistema es notablemente más eficiente. CoAct-1 resuelve tareas en un promedio de tan solo 10,15 pasos, un marcado contraste con los 15,22 pasos que requieren los principales agentes basados exclusivamente en interfaz gráfica de usuario, como GTA-1 .
Si bien otros agentes como CUA 4o de OpenAI promediaron menos pasos, su tasa de éxito general fue mucho menor, lo que indica que la eficiencia de CoAct-1 está acompañada de una mayor efectividad.
Los investigadores encontraron una tendencia clara: las tareas que requieren más acciones tienen mayor probabilidad de fallar. Reducir el número de pasos no solo acelera la finalización de las tareas, sino que, aún más importante, minimiza las posibilidades de error.
Por lo tanto, encontrar formas de comprimir múltiples pasos de la GUI en una sola tarea programática puede hacer que el proceso sea más eficiente y menos propenso a errores.
Como concluyen los investigadores, “esta eficiencia subraya el potencial de nuestro enfoque para allanar un camino más sólido y escalable hacia la automatización informática generalizada”.

El potencial de esta tecnología va más allá de la productividad general. Para los líderes empresariales, la clave reside en automatizar procesos complejos que utilizan múltiples herramientas, donde el acceso total a las API es un lujo, no una garantía.
Ran Xu, coautor del artículo y director de investigación de IA aplicada en Salesforce, señala la atención al cliente como un excelente ejemplo.
“Un agente de soporte utiliza diversas herramientas —generales como Salesforce, específicas del sector como EPIC para atención médica y muchas personalizadas— para investigar la solicitud de un cliente y formular una respuesta”, declaró Xu a VentureBeat. “Algunas herramientas tienen acceso a la API, mientras que otras no. Es un caso práctico ideal que podría beneficiarse de nuestra tecnología: un agente que utiliza recursos computacionales y aprovecha todo lo disponible en el ordenador, ya sea una API, código o simplemente la pantalla”.
Xu también ve aplicaciones de alto valor en ventas, como la prospección a escala y la automatización de la contabilidad, y en marketing para tareas como la segmentación de clientes y la generación de activos de campaña.
Si bien los resultados del benchmark OSWorld son sólidos, los entornos empresariales son mucho más desordenados, repletos de software heredado e interfaces de usuario impredecibles.
Esto plantea cuestiones críticas sobre la robustez, la seguridad y la necesidad de supervisión humana.
Un desafío fundamental es garantizar que el agente de Orchestrator tome la decisión correcta al enfrentarse a una aplicación desconocida. Según Xu, para que agentes como CoAct-1 sean robustos para software empresarial personalizado, es necesario entrenarlos con retroalimentación en entornos realistas y simulados.
El objetivo es crear un sistema donde el “agente pueda observar cómo trabajan los agentes humanos, capacitarse dentro de un entorno de pruebas y, cuando entre en funcionamiento, continuar resolviendo tareas bajo la guía y la protección de un agente humano”.
La capacidad del agente del programador para ejecutar su propio código también presenta evidentes problemas de seguridad. ¿Qué impide que el agente ejecute código dañino basándose en una solicitud ambigua del usuario?
Xu confirma que una contención robusta es esencial. «El control de acceso y el sandboxing son la clave», afirmó, enfatizando que un humano debe «comprender las implicaciones y permitir el acceso a la IA para su seguridad».
El uso de sandbox y barandillas será fundamental para validar el comportamiento del agente antes de su implementación en sistemas críticos.
En última instancia, en el futuro previsible, superar la ambigüedad probablemente requerirá la intervención humana. Al ser preguntado sobre la gestión de consultas vagas de los usuarios, una preocupación también planteada en el documento, Xu sugirió un enfoque gradual. "Veo la intervención humana como punto de partida", señaló.
Si bien algunas tareas podrían eventualmente volverse completamente autónomas, para operaciones de alto riesgo, la validación humana seguirá siendo crucial. «Algunas tareas críticas para la misión podrían requerir siempre la aprobación humana».
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat