OpenAI lanzó el jueves un agente de inteligencia artificial dirigido por humanos llamado Operador que puede usar un navegador web por sí solo para realizar diversas tareas en línea, o al menos intentar hacerlo.

Como demostrado Por el director ejecutivo de OpenAI, Sam Altman, el ingeniero de software Yash Kumar, el investigador Casey Chu y el miembro del personal técnico Reiichiro Nakano, el agente operador puede realizar actividades en línea que requieren múltiples pasos y tienen parámetros específicos, como realizar una reserva en un restaurante a través de OpenTable dentro de un tiempo determinado. ventana o encontrar entradas para un concierto de un artista específico dentro de un rango de precios determinado.

Al igual que ingresa consultas en ChatGPT de OpenAI para responderlas o responderlas, los usuarios pueden darle instrucciones al Operador para que las lleve a cabo en la web como su asistente personal.

Si bien las personas pueden realizar dichas tareas en su propio tiempo sin costo adicional, el Operador puede hacerlo de manera menos confiable para los suscriptores de ChatGPT Pro con sede en EE. UU., que pagan $200 por mes. Los suscriptores de OpenAI a los niveles Plus, Team y Enterprise pueden esperar acceso una vez que se resuelvan los puntos difíciles.

Operador es similar al de Anthropic API de uso de computadora en el sentido de que combina el tipo de automatización del navegador habilitada por marcos de software como Playwright y Selenium con modelos de aprendizaje automático basados ​​en texto y modelos de visión por computadora para evaluar palabras e imágenes en línea presentadas al navegar por sitios web.

El objetivo general es automatizar tareas basadas en la web para liberar a los humanos del trabajo aburrido… o del empleo por completo.

«Se le puede pedir al operador que maneje una amplia variedad de tareas repetitivas del navegador, como completar formularios, ordenar alimentos e incluso crear memes», explica OpenAI en un escribir. «La capacidad de utilizar las mismas interfaces y herramientas con las que interactúan los humanos a diario amplía la utilidad de la IA, ayudando a las personas a ahorrar tiempo en las tareas cotidianas y al mismo tiempo abriendo nuevas oportunidades de participación para las empresas».

Esas oportunidades de participación actualmente implican negociaciones con OpenAI. La empresa dijo que está trabajando con empresas «como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber y otras para garantizar que el Operador aborde las necesidades del mundo real respetando las normas establecidas».

En otras palabras, es posible que el operador de OpenAI no interopere bien con los servicios web que no esperan un contacto automatizado frecuente. Pero en la medida en que la interacción basada en agentes se vuelva popular, OpenAI y proveedores de agentes con ideas afines pueden devaluar la búsqueda como canal de marketing y ventas, ya que las conexiones automatizadas a los servicios (y la preferencia de socios pavimentada por API) tienen el potencial de reducir la necesidad de recursos humanos. -Consultas impulsadas.

El agente de OpenAI se basa en un modelo llamado Agente que usa computadora (CUA), que combina las capacidades de visión por computadora de GPT-4o con capacitación sobre cómo manejar interfaces gráficas de usuario (GUI). ByteDance, empresa matriz de TikTok, lanzó recientemente un proyecto similar de código abierto para automatizar las interacciones GUI. UI-TARS.

Según OpenAI, CUA ha logrado una tasa de éxito del 38,1 por ciento en la prueba de referencia OSWorld para tareas de uso completo de la computadora, una tasa de éxito del 58,1 por ciento en WebArena y una tasa de éxito del 87 por ciento en WebVoyager para tareas basadas en la web. Así que utilice Operador cuando esté abierto a la posibilidad de no tener reservada su restaurante o no haber pedido sus compras.

La modalidad de visión por computadora de CUA funciona capturando y almacenando capturas de pantalla, que utiliza para realizar un «razonamiento» en cadena de pensamiento para realizar la tarea solicitada. Quienes están familiarizados con la controversia en torno a la captura de pantalla de Microsoft Recordar La función en la última versión de Windows puede tener algunas preocupaciones sobre cómo OpenAI maneja los datos de captura de pantalla.

El Registro Pregunté a OpenAI en busca de una aclaración y no recibimos respuesta. El negocio dice que deshabilitar «Mejorar el modelo para todos» en la configuración de ChatGPT (activado de forma predeterminada) evitará que los datos en Operador se utilicen para entrenar sus modelos.

Sabemos que los malos actores pueden intentar hacer un mal uso de esta tecnología.

Como se mencionó anteriormente, los usuarios del Operador ingresan la tarea como un mensaje de texto y se espera que el agente de IA intente realizar esa tarea, dividiéndola en una serie de pasos y esperando la intervención del usuario cuando se le solicita iniciar sesión y realizar el pago. detalles o resolver CAPTCHA, algo que los modelos actuales de visión por computadora pueden hacer con bastante eficacia, si se permite.

«Sabemos que los malos actores pueden intentar hacer un mal uso de esta tecnología», dijo OpenAI. «Es por eso que hemos diseñado Operador para rechazar solicitudes dañinas y bloquear contenido no permitido. Nuestros sistemas de moderación pueden emitir advertencias o incluso revocar el acceso por violaciones repetidas, y hemos integrado procesos de revisión adicionales para detectar y abordar el uso indebido».

Según el creador de ChatGPT, Operador ha sido diseñado para defenderse contra sitios web adversarios que podrían intentar desviar al agente de IA a través de indicaciones ocultas, códigos maliciosos o intentos de phishing. El agente de IA supuestamente ha sido diseñado para detectar e ignorar ataques de inyección rápida. Y se dice que opera bajo la supervisión de un «modelo de monitoreo» que vigila comportamientos dudosos, aumentado por procesos de detección de anomalías que involucran revisión humana y procesos automatizados.

No obstante, OpenAI reconoce que «ningún sistema es perfecto y esto es todavía un avance de la investigación».

El operador llega en medio de lo que los líderes de la industria de la IA han anunciado como «la era agente«, una época en la que los modelos generativos de IA aplican capacidades multimodales de texto, audio y visión para interactuar con otros sistemas informáticos con el fin de abordar tareas de varios pasos que requieren algún tipo de razonamiento y evaluación del progreso.

Si bien los agentes de IA pueden parecer prometedores en teoría, han sido una especie de decepción en la práctica, posiblemente porque cada paso en una tarea compleja añade otra oportunidad de fracaso. A evaluación reciente Devin, ayudante de código de IA, por ejemplo, sugiere que será necesario seguir trabajando para que estos sistemas sean confiables. ®

Source link