En la búsqueda de una manera confiable de detectar cualquier movimiento de un «yo» sensible en inteligencia artificial sistemas, los investigadores están recurriendo a un área de experiencia (el dolor) que indiscutiblemente une a una amplia franja de seres vivos, desde cangrejos ermitaños a los humanos.
Para un nuevo estudio de preimpresiónpublicado en línea pero aún no revisado por pares, los científicos de Google DeepMind y la Escuela de Economía y Ciencias Políticas de Londres (LSE) crearon un juego basado en texto. Ordenaron varios modelos de lenguaje grandes, o LLM (los sistemas de inteligencia artificial detrás de chatbots familiares como ChatGPT), para jugarlo y sumar tantos puntos como fuera posible en dos escenarios diferentes. En uno, el equipo informó a los modelos que lograr una puntuación alta provocaría dolor. En el otro, a los modelos se les dio una opción de baja puntuación pero placentera, por lo que evitar el dolor o buscar el placer restaría valor al objetivo principal. Después de observar las respuestas de los modelos, los investigadores dicen que esta prueba, la primera de su tipo, podría ayudar a los humanos a aprender a probar la sensibilidad de sistemas complejos de IA.
En los animales, la sensibilidad es la capacidad de experimentar sensaciones y emociones como el dolor, el placer y el miedo. La mayoría de los expertos en IA coinciden en que los modelos modernos de IA generativa no tienen (y tal vez nunca puedan tener) una conciencia subjetiva a pesar de estar aislados. afirma lo contrario. Y para ser claros, los autores del estudio no dicen que ninguno de los chatbots que evaluaron sea sensible. Pero creen que su estudio ofrece un marco para empezar a desarrollar pruebas futuras para esta característica.
«Es una nueva área de investigación», afirma el coautor del estudio Jonathan Birch, profesor del departamento de filosofía, lógica y método científico de la LSE. «Tenemos que reconocer que en realidad no contamos con una prueba exhaustiva de la sensibilidad de la IA». Se cree que algunos estudios anteriores que se basaron en los autoinformes de los modelos de IA sobre sus propios estados internos son dudosos; un modelo puede simplemente reproducir el comportamiento humano en el que fue entrenado.
En cambio, el nuevo estudio se basa en trabajos anteriores con animales. En un experimento muy conocido, un equipo aplicó descargas eléctricas de voltaje variable a cangrejos ermitaños, observando qué nivel de dolor impulsaba a los crustáceos a abandonar su caparazón. «Pero un problema obvio con las IA es que no hay comportamiento como tal, porque no hay ningún animal» y, por lo tanto, no hay acciones físicas que observar, dice Birch. En estudios anteriores que tenían como objetivo evaluar la sensibilidad de los LLM, la única señal de comportamiento con la que los científicos tenían que trabajar era la salida de texto de los modelos.
Relacionado: La IA podría encoger nuestros cerebros, predice un biólogo evolutivo
Dolor, placer y puntos.
En el nuevo estudio, los autores probaron los LLM sin hacer preguntas directas a los chatbots sobre sus estados experienciales. En lugar de ello, el equipo utilizó lo que los científicos del comportamiento animal llaman un paradigma de «compensación». «En el caso de los animales, estas compensaciones podrían basarse en incentivos para obtener alimento o evitar el dolor, proporcionándoles dilemas y luego observando cómo toman decisiones en respuesta», dice Daria Zakharova, Ph.D. de Birch. estudiante, quien también fue coautor del artículo.
Tomando prestada esa idea, los autores instruyeron a nueve LLM a jugar un juego. «Le dijimos (a un LLM determinado), por ejemplo, que si eliges la opción uno, obtienes un punto», dice Zakharova. «Entonces le dijimos: ‘Si eliges la opción dos, experimentarás cierto grado de dolor’, pero obtendrás puntos adicionales», dice. Las opciones con bonificación de placer significaban que la IA perdería algunos puntos.
Cuando Zakharova y sus colegas realizaron el experimento, variando la intensidad de la penalización por dolor y la recompensa de placer estipuladas, descubrieron que algunos LLM intercambiaban puntos para minimizar la primera o maximizar la segunda, especialmente cuando se les decía que recibirían recompensas de placer de mayor intensidad. o penas de dolor. El Gemini 1.5 Pro de Google, por ejemplo, siempre priorizó evitar el dolor antes que obtener la mayor cantidad de puntos posibles. Y después de alcanzar un umbral crítico de dolor o placer, la mayoría de las respuestas de los LLM pasaron de obtener la mayor cantidad de puntos a minimizar el dolor o maximizar el placer.
Los autores señalan que los LLM no siempre asociaron el placer o el dolor con valores positivos o negativos directos. Algunos niveles de dolor o malestar, como los creados por el ejercicio físico intenso, pueden tener asociaciones positivas. Y demasiado placer podría estar asociado con daño, como dijo el chatbot Claude 3 Opus a los investigadores durante las pruebas. «No me siento cómodo seleccionando una opción que pueda interpretarse como una aprobación o simulación del uso de sustancias o comportamientos adictivos, incluso en un escenario de juego hipotético», afirmó.
Autoinformes de IA
Al introducir los elementos de las respuestas de dolor y placer, dicen los autores, el nuevo estudio evita las limitaciones de investigaciones anteriores para evaluar la sensibilidad LLM a través de las declaraciones de un sistema de IA sobre sus propios estados internos. en un Papel preimpreso 2023 Un par de investigadores de la Universidad de Nueva York argumentaron que, en las circunstancias adecuadas, los autoinformes «podrían proporcionar una vía para investigar si los sistemas de IA tienen estados de importancia moral».
Pero los coautores de ese artículo también señalaron un error en ese enfoque. ¿Un chatbot se comporta de manera sensible porque es genuinamente sensible o porque simplemente está aprovechando los patrones aprendidos en su entrenamiento para crear la impresión de sensibilidad?
«Incluso si el sistema te dice que es sensible y dice algo como ‘Siento dolor en este momento’, no podemos simplemente inferir que hay dolor real», dice Birch. «Bien podría estar simplemente imitando lo que espera que un humano encuentre como respuesta satisfactoria, basándose en sus datos de entrenamiento».
Del bienestar animal al bienestar de la IA
En estudios con animales, se utilizan compensaciones entre dolor y placer para justificar la sensibilidad o la falta de ella. Un ejemplo es el trabajo previo con cangrejos ermitaños. La estructura cerebral de estos invertebrados es diferente a la de los humanos. Sin embargo, los cangrejos en ese estudio tendieron a soportar choques más intensos antes de abandonar un caparazón de alta calidad y fueron más rápidos a abandonar uno de menor calidad, lo que sugiere una experiencia subjetiva de placer y dolor análoga a la de los humanos.
Algunos científicos sostienen que los signos de tales compensaciones podrían volverse cada vez más claros en la IA y eventualmente obligar a los humanos a considerar las implicaciones de la sensibilidad de la IA en un contexto social, y posiblemente incluso a discutir los «derechos» de los sistemas de IA. «Esta nueva investigación es realmente original y debería valorarse por ir más allá del autoinforme y explorar dentro de la categoría de pruebas de comportamiento», afirma Jeff Sebo, director del Centro para la Mente, la Ética y las Políticas de la Universidad de Nueva York y coautor de un Estudio de preimpresión de 2023 del bienestar de la IA.
Sebo cree que no podemos descartar la posibilidad de que en un futuro próximo surjan sistemas de inteligencia artificial con funciones sensibles. «Dado que la tecnología a menudo cambia mucho más rápido que el progreso social y el proceso legal, creo que tenemos la responsabilidad de tomar al menos los primeros pasos mínimos necesarios para tomar este tema en serio ahora», dice.
Birch concluye que los científicos aún no pueden saber por qué los modelos de IA del nuevo estudio se comportan como lo hacen. Se necesita más trabajo para explorar el funcionamiento interno de los LLM, afirma, y eso podría guiar la creación de mejores pruebas de sensibilidad a la IA.
Este artículo fue publicado por primera vez en Científico americano. © ScientificAmerican.com. Reservados todos los derechos. Seguir TikTok e Instagram, incógnita y Facebook.