OpenAI ha comenzado a obtener una vista previa de una nueva herramienta llamada Operador que puede navegar dentro de un navegador web. Según una publicación de blog publicado el juevesEl software funciona con lo que la empresa llama un agente que utiliza una computadora. «CUA está capacitado para interactuar con interfaces gráficas de usuario (GUI) (los botones, menús y campos de texto que las personas ven en una pantalla) tal como lo hacen los humanos», dice OpenAI sobre el modelo. «Esto le da la flexibilidad de realizar tareas digitales sin utilizar API específicas del sistema operativo o de la web».
La versión actual de Operador se basa en el modelo GPT-4o de OpenAI. Combina las capacidades de visión de ese algoritmo con un “razonamiento avanzado” entrenado mediante aprendizaje por refuerzo. El operador tiene la capacidad de «dividir las tareas en planes de varios pasos y autocorregirlas de forma adaptativa cuando surgen desafíos». Según OpenAI, esa capacidad representa la siguiente etapa en el desarrollo de la IA.
Al igual que con avances de investigaciones anteriores, OpenAI advierte que Operador «aún es temprano y tiene limitaciones» y que «todavía no funcionará de manera confiable en todos los escenarios». Por ejemplo, dependiendo de la complejidad de la tarea y la interfaz involucrada, el agente se beneficia enormemente si el usuario se toma unos minutos adicionales para escribir un mensaje más detallado. Por El bordeEl operador le dará el control al usuario si alguna vez se atasca en una tarea. También entregará el control cuando un sitio web solicite información confidencial, incluidas las credenciales de inicio de sesión. La compañía dice que diseñó la herramienta para «rechazar solicitudes dañinas y bloquear contenido no permitido».
OpenAI pondrá a Operador a disposición de los usuarios por primera vez con sus 200 dólares al mes Suscripción ChatGPT Pro. También se está asociando con empresas como Instacart para ofrecer al agente en sus plataformas, aunque también necesitará una suscripción a ChatGPT Pro para probar la integración.
El operador se une a una lista cada vez mayor de agentes de IA que pueden navegar por un navegador web o por un sistema operativo completo. Anthropic fue el primero en ofrecer esta capacidad con el lanzamiento de su Modelo Claude 3.5 Sonnet en octubreseguido más recientemente por Google con su Géminis 2.0 modelo y Proyecto Marinero.
Si compra algo a través de un enlace de este artículo, es posible que ganemos una comisión.