Mientras está funcionando, Operador muestra una ventana de navegador en miniatura con sus acciones.
Sin embargo, la tecnología detrás de Operador es todavía relativamente nueva y está lejos de ser perfecta. Según se informa, el modelo funciona mejor en tareas web repetitivas, como crear listas de compras o listas de reproducción. Tiene más dificultades con interfaces desconocidas como tablas y calendarios, y tiene malos resultados con la edición de textos complejos (con una tasa de éxito del 40 por ciento), según los datos de pruebas internas de OpenAI.
OpenAI informó que el sistema logró una tasa de éxito del 87 por ciento en el WebVoyager benchmark, que prueba sitios en vivo como Amazon y Google Maps. En WebArenaque utiliza sitios de prueba fuera de línea para entrenar agentes autónomos, la tasa de éxito del operador cayó al 58,1 por ciento. Para tareas de sistemas operativos de computadora, CUA estableció un récord aparente de 38,1 por ciento de éxito en el OSWorld punto de referencia, superando a los modelos anteriores pero aún por debajo del rendimiento humano en un 72,4 por ciento.
Con esta imperfecta vista previa de la investigación, OpenAI espera recopilar comentarios de los usuarios y perfeccionar las capacidades del sistema. La compañía reconoce que CUA no funcionará de manera confiable en todos los escenarios, pero planea mejorar su confiabilidad en una gama más amplia de tareas mediante pruebas de usuarios.
Preocupaciones de seguridad y privacidad
Para cualquier modelo de IA que pueda ver cómo opera su computadora e incluso controlar algunos aspectos de la misma, la privacidad y la seguridad son muy importantes. OpenAI dice que incorporó múltiples controles de seguridad en Operador, lo que requiere la confirmación del usuario antes de completar acciones confidenciales como enviar correos electrónicos o realizar compras. El operador también tiene límites sobre lo que puede navegar, establecidos por OpenAI. No puede acceder a determinadas categorías de sitios web, incluidos juegos de azar y contenido para adultos.
Tradicionalmente, los modelos de IA basados en la tecnología Transformer estilo modelo de lenguaje grande, como Operador, han sido relativamente fáciles de engañar con jailbreaks y inyecciones inmediatas.
Para detectar intentos de subvertir a Operador, que hipotéticamente podría estar integrado en sitios web que navega el modelo de IA, OpenAI dice que ha implementado sistemas de detección y moderación en tiempo real. OpenAI informa que el sistema reconoció todos menos uno de los casos de intentos de inyección rápida durante una sesión interna temprana de equipo rojo.