OpenAI se suma al desarrollo de agentes de IA con su innovador sistema llamado Operator. Este agente es capaz de «ver» nuestra pantalla y realizar acciones autónomas en el navegador basándose en nuestras solicitudes. Aunque conceptos similares ya existen, como ‘Computer Use’ de Anthropic o Mariner de DeepMind, OpenAI aporta su toque único a través de una tecnologÃa especializada.
Computer-Using Agent (CUA). Operator incorpora un modelo denominado Computer-Using Agent (CUA), que se basa en GPT-4o. Este modelo interpreta capturas de pantalla y puede interactuar con sitios web utilizando controles estándar del navegador, como el cursor del ratón.
El funcionamiento de CUA. Según aclara la documentación de OpenAI, CUA procesa los «pÃxeles crudos» de las capturas y maneja un ratón y teclado virtual para llevar a cabo las acciones necesarias. Tras capturar la pantalla, el sistema «razona» considerando acciones previas para ajustarse a la situación actual.
Potente desempeño prometido. Existen varios benchmarks que evalúan la capacidad de estos modelos agénticos. En pruebas internas de OpenAI, CUA alcanza un 38,1% de rendimiento en OSWorld, que evalúa el uso general de un ordenador, superando a Anthropic, que llega al 22%. No obstante, los humanos promedian un 72,4%, indicando que aún hay mucho terreno por avanzar. En términos de navegación, Operator obtiene un 58,1% y un 87% en WebArena y WebVoyager, respectivamente, en comparación con el 36,2% y el 56% de sus rivales.
El rendimiento de Operator es por el momento superior al de sus competidores según pruebas internas de la compañÃa. Fuente: OpenAI
La gestión de las capturas de pantalla por Operator. Operator realiza capturas de pantalla de manera continua para visualizar la interfaz del navegador con la que interactúa. Estas acciones se llevan a cabo en un navegador remoto ubicado en los servidores de OpenAI. Los datos del usuario, incluidas las capturas, son gestionados de acuerdo a la polÃtica de privacidad de OpenAI, pudiendo ser utilizados para detectar actividades fraudulentas y mejorar el servicio. Los usuarios pueden ajustar esta configuración para no compartir sus datos con fines de entrenamiento y decidir el tiempo que sus datos son almacenados, teniendo el control de su eliminación.
Un agente que busca ayuda y confirmación cuando es necesario. Tal como otros agentes, como ‘Computer Use’ de Anthropic, Operator actúa con precaución. Ante obstáculos como un código CAPTCHA o la necesidad de ingresar credenciales, solicitará la acción del usuario y pedirá confirmación para validar ciertas acciones, como reservas o compras. Los usuarios pueden tomar el control manualmente en cualquier momento.
Asà funciona CUA. Fuente: OpenAI
Mantén las manos en el volante. Al igual que con sistemas de conducción asistida como el FSD de Tesla, es fundamental prestar atención incluso si Operator gestiona ciertas acciones. El usuario debe estar preparado para intervenir ante situaciones imprevistas.
Limitaciones actuales. Por ahora, Operator no puede ejecutar tareas muy especializadas, como gestionar sistemas de calendario complejos o interactuar con entornos web muy personalizados. Tampoco llevará a cabo acciones con un alto riesgo de consecuencias negativas, como enviar correos electrónicos o realizar transacciones. Aunque se espera que sus capacidades se expandan, este proceso será gradual y cuidadosamente supervisado para minimizar errores.
Imagen | OpenAI
Deja una respuesta