Un servicio descrito como «el primer ingeniero de software de IA» parece hacer bastante mal su trabajo, según una evaluación reciente.
El codificador automático se llama «Devin» y fue introducido en marzo de 2024. El creador del bot, una empresa llamada Cognition AI, ha hecho afirmaciones como «Devin puede crear e implementar aplicaciones de un extremo a otro» y «puede encontrar y corregir errores de forma autónoma en las bases de código». alcanzó disponibilidad general en diciembre de 2024, a partir de $500 por mes.
«Devin es un ingeniero de software de IA autónomo que puede escribir, ejecutar y probar código, ayudando a los ingenieros de software a trabajar en tareas personales o en proyectos de equipo», afirma Cognition. documentación declara. «Puede revisar relaciones públicas, admitir migraciones de código, responder a problemas de guardia, crear aplicaciones web e incluso realizar tareas de asistente personal, como pedir su almuerzo en DoorDash, para que pueda permanecer encerrado en su código base».
El servicio utiliza Slack como interfaz principal para los comandos, que se envían a su entorno informático, un contenedor Docker que aloja una terminal, un navegador, un editor de código y un planificador. El agente de IA admite la integración de API con servicios externos. Esto le permite, por ejemplo, enviar mensajes de correo electrónico en nombre de un usuario a través de SendGrid.
Devin es un «sistema de IA compuesto«, lo que significa que se basa en múltiples modelos de IA subyacentes, un conjunto que incluye GPT-4o de OpenAI y que se puede esperar que evolucione con el tiempo.
En teoría, debería poder pedirle que realice tareas como migrar código a nbdevuna plataforma de desarrollo Jupyter Notebook y esperamos que lo haga con éxito. Pero quizá eso sea pedir demasiado.
Las primeras evaluaciones de Devin han encontrado problemas. Cognition AI publicó un vídeo promocional que supuestamente mostraba al codificador de IA completando proyectos de forma autónoma en la plataforma de autónomos contratados Upwork. desarrollador de software Carl Brown analizó ese video y lo desacreditó en su Canal de YouTube de Internet de los errores.
El agente de software también fue criticado por otro experto en códigos de YouTube por supuestamente incluir problemas críticos de seguridad.
Ahora, tres científicos de datos afiliados a Respuesta.AIun laboratorio de investigación y desarrollo de IA fundado por Jeremy Howard y Eric Ries, ha probado devin y descubrió que solo completó con éxito tres de 20 tareas.
en un análisis realizado a principios de este mes por Hamel Husain, Isaac Flathy John WhitakerDevin comenzó bien, extrayendo con éxito datos de una base de datos de Notion a Google Sheets. El agente de IA también logró crear un rastreador de planetas para verificar las afirmaciones sobre las posiciones históricas de Júpiter y Saturno.
Pero a medida que los tres investigadores continuaron con sus pruebas, encontraron problemas.
«Las tareas que parecían sencillas a menudo tomaban días en lugar de horas, y Devin se quedaba atrapado en callejones técnicos sin salida o producía soluciones demasiado complejas e inutilizables», explican los investigadores en su informe. «Aún más preocupante era la tendencia de Devin a seguir adelante con tareas que en realidad no eran posibles».
Como ejemplo, citaron cómo a Devin, cuando se le pidió que implementara múltiples aplicaciones en la plataforma de implementación de infraestructura FerrocarrilNo entendió que esto no era compatible y pasó más de un día probando enfoques que no funcionaban y alucinando con características inexistentes.
De 20 tareas presentadas a Devinel ingeniero de software de IA completó satisfactoriamente solo tres de ellos: los dos citados anteriormente y un tercer desafío para investigar cómo construir un bot de Discord en Python. Otras tres tareas produjeron resultados no concluyentes y 14 proyectos fueron rotundamente fracasos.
Los investigadores dijeron que Devin proporcionó una experiencia de usuario refinada que fue impresionante cuando funcionó.
«Pero ese es el problema: rara vez funcionó», escribieron.
«Más preocupante era nuestra incapacidad para predecir qué tareas tendrían éxito. Incluso tareas similares a nuestras primeras victorias fallarían de manera compleja y consumirían mucho tiempo. La naturaleza autónoma que parecía prometedora se convirtió en un inconveniente: Devin pasaba días buscando soluciones imposibles en lugar de reconocerlas. bloqueadores fundamentales.»
Cognition AI no respondió a una solicitud de comentarios. ®