La compañía de inteligencia artificial ha anunciado su primer agente, que de momento sólo está disponible en Estados Unidos y para usuarios de la versión Pro de 200 dólares al mes.
Tras meses de rumores, OpenAi ha cumplido las expectativas y ha presentado su primer agente de IA. «Operador «Es uno de nuestros primeros agentes, que es un tipo de inteligencia artificial capaz de hacer el trabajo por ti de forma independiente: le das una tarea y él la ejecutará», explicó en un post en la red social X OpenAI. .
Los agentes, considerados el siguiente nivel de IA, son capaces de ejecutar acciones como lo haría un humano. Específicamente, El operador puede acceder al navegador para realizar tareas como planificar unas vacaciones, hacer reservas en restaurantes, pedir comida o incluso crear memes.
La empresa de Sam Altman ha explicado que su agente está capacitado para interactuar con navegadores, escribiendo, haciendo clic y desplazándose.
Utilizando este agente, el usuario puede, por ejemplo, pedirle al Operador que reserve una mesa a las 21:00 horas para un determinado restaurante. O buscar una habitación de hotel en Nueva York con características específicas.
En el caso de que la IA encuentre algún problema, por ejemplo no hay disponibilidad en el restaurante, requerirá la intervención del usuario. Además, puede hacer preguntas de seguimiento para algunas tareas, para personalizar la experiencia o porque necesita datos como información de inicio de sesión para algunos sitios web.
OpenAi insiste en que se trata de una versión preliminar, «lo que significa que tiene limitaciones y evolucionará en función de los comentarios de los usuarios».
Por el momento, se ha lanzado s.sólo en Estados Unidos y para usuarios de la versión Proque cuesta $200 por mes. Pero la compañía dice que su plan es expandir los usuarios de Operador a Plus, Team y Enterprise e integrar estas capacidades en ChatGPT en el futuro.
«Al lanzar Operador inicialmente a una audiencia limitada, nuestro objetivo es aprender y perfeccionar rápidamente sus capacidades en función de los comentarios del mundo real, garantizando que equilibramos la innovación con la confianza y la seguridad».
La compañía también ha anunciado que está en conversaciones con empresas como Uber, Tripadvisor, Booking y muchas otras para «garantizar que el Operador aborde las necesidades del mundo real respetando los estándares establecidos».
¿Cómo funciona?
OpenAi ha lanzado un nuevo modelo, llamado Computer-Using Agent (CUA), que combina las capacidades de visión de GPT-4o con el razonamiento avanzado mediante el aprendizaje por refuerzo. Gracias a esto, el CUA es capaz de interactuar con interfaces gráficas de usuario (GUI), es decir, los botones, menús y campos de texto que las personas ven en una pantalla.
El agente puede ver y utilizar un navegador como lo haría un humano. Y si encuentra errores o desafíos, OpenAi garantiza que podrá aprovechar sus capacidades de razonamiento para autocorregirse. «Cuando te quedas atascado y necesitas ayuda, simplemente devuelve el control al usuario, garantizando una experiencia fluida y colaborativa», explican.
Para abordar el problema de privacidad, la compañía dice que los usuarios pueden desactivar la opción «mejorar el modelo para todos» para que sus datos no se recopilen ni se utilicen en el entrenamiento de IA. garantiza que los usuarios puedan eliminar todos los datos de navegación.
OpenAi lanza su primer agente tras su gran competidor en el mundo de la IA, antrópico, anunció su pasado mes de octubre, Computer Use. En este caso, la compañía estadounidense también aseguró que su agente es capaz de interpretar lo que hay en la pantalla del ordenador, presionar botones, completar texto y navegar por un sitio web para completar tareas que actualmente realizamos los humanos.
Asimismo, Google también presentó en diciembre Proyecto marineroun prototipo de investigación que ya está siendo probado por algunos usuarios seleccionados. El agente combina la comprensión multimodal (comprende la información en la pantalla del navegador) con la interacción web para automatizar tareas en nombre del usuario.