La IA tiene un gran problema: la escasez de datos y podría devorar rápidamente la innovación, escribe Satyen K. Bordoloi mientras describe las soluciones que se están cocinando en las ollas a presión llamadas empresas de IA.
Los datos son el nuevo petróleo, dijeron, por lo que eliminaron sitios web antiguos y nuevos. Luego vinieron por los hilos de Reddit, las publicaciones de Facebook y los feeds de Twitter. Cuando eso no fue suficiente, incluso grabaron videos de YouTube, libros electrónicos y periódicos. Para hacer qué: crear ‘big data’ para entrenar una IA más grande. Pero adivinen qué, a pesar de quemar combustibles fósiles durante cientos de años, todavía no se nos han acabado. ¿Pero datos para entrenar, ejecutar y codificar la IA? nos estamos quedando sin humo allí. Sí, a pesar de los quintillones de videos de gatos y fotos de almuerzos que publicas sin descanso.
Gran cosa, te burlas; Los grandes dadas descubrirán grandes soluciones para big data. Bueno, es… complicado.
Houston, tenemos un gran problema de datos: Aquí hay una estadística alucinante: Se ha dicho que mientras que GPT-3.5 fue entrenado en 175 mil millones de parámetros, GPT-4 probablemente superó los 100 billones de parámetros, lo que indica un aumento sustancial de más del 57.000%. Más parámetros significan más complejidad. ¿Adivina qué se requiere normalmente para ambos? Sí, ¡un apetito aún mayor por los datos!
Imagínese esto: los modelos de Inteligencia Artificial son como adolescentes hambrientos que asaltaron el refrigerador, se comieron todo lo que vieron y todavía preguntan: «¿Qué hay para cenar?» Estas bestias hambrientas de datos ya se han abierto camino a través de todo lo que está en línea (legalmente y, guiño, guiño), no tan legalmente. Todavía tienen hambre y ningún dato antiguo les bastará.
Pero aquí es donde se vuelve interesante (y un poco aterrador): muchos investigadores y observadores han señalado que la cantidad de datos diversos y de alta calidad necesarios para entrenar modelos de IA de vanguardia ha aumentado a un ritmo rápido. Es como intentar llenar una piscina de tamaño olímpico que sigue creciendo mientras la manguera de su jardín sigue siendo del mismo tamaño. ¡Ay!
¿Por qué debería importarnos?: Piénselo de esta manera: Si los sistemas de inteligencia artificial se entrenan con datos limitados o sesgados, son como alguien que solo ha visto comedias románticas tratando de predecir cómo funcionan las relaciones reales. No es genial, ¿verdad? Esto puede llevar a algunos momentos serios de facepalm, como sistemas de reconocimiento facial que funcionan en un grupo (léase Blancos) y no en otros.
O modelos de lenguaje que parecen haber aprendido inglés exclusivamente a partir de argumentos de Twitter; ¿Recuerdas el robot de inteligencia artificial de Twitter de Microsoft, Tay, que terminó siendo su Proyecto Blair Witch? Asistentes de IA que saben mucho sobre muchas cosas pero tienen poco sentido común, como la hora. ChatGPT me dijo Es posible caminar por el Canal de la Mancha.
Es como si los escritores del famoso artículo titulado «Sobre los peligros de los loros estocásticos», mientras hablaban sobre los modelos de lenguajes grandes (LLM), dijeran algo como: «Oye, estos modelos de IA son simplemente imitadores elegantes, y necesitamos ¡Mira lo que están copiando!
El equipo de Cool Solutions: Las soluciones están al alcance de la mano. Algunos rayan en lo ridículo: los investigadores están explorando bibliotecas para escanear libros. Esto es un poco insípido porque el escaneo lleva tiempo y requiere mucha mano de obra; Incluso con una gran fuerza laboral, ¿cuántos «datos» puedes crear? Mientras tanto, personas inteligentes con batas de laboratorio (y probablemente con sudaderas con capucha) han estado ideando algunas soluciones viables tan ingeniosas como el problema mismo.
Gimnasia de datos, también conocida como aumento de datos: Imagina que tienes una foto de un gato. Ahora, gírelo, gírelo, amplíelo y agregue algunos filtros. ¡Auge! Tienes varios ejemplos de entrenamiento de una imagen. ¡Es como preparar comidas pero para IA! Este truco ayuda a sacarle más jugo a los datos existentes.
Según una investigación realizada por diferentes investigadores, el aumento de datos inteligente puede reducir los datos necesarios para entrenar un modelo de aprendizaje automático hasta en un 60%. Demostraron que con los trucos de aumento adecuados, se pueden entrenar modelos que funcionan casi tan bien como los entrenados en conjuntos de datos masivos.
Finge hasta lograrlo, también conocido como datos sintéticos: Resulta que el mantra mágico de Silicon Valley también se puede aplicar al entrenamiento de IA. Utilizando una tecnología sofisticada llamada GAN (Generative Adversarial Networks), los investigadores están creando datos falsos que parecen reales. ¡Es como tener una impresora 3D para datos! ¿Necesita fotografías de condiciones médicas raras? ¿Accidentes de tráfico que no han ocurrido? No hay problema, ¡simplemente generelos usando lo que ya existe!
NVIDIA lo ha estado arrasando en este espacio con su sistema GauGAN2 (sí, el nombre es un juego de palabras con el pintor postimpresionista Paul Gauguin) que puede convertir una simple frase u oración escrita en una obra maestra fotorrealista. Los datos sintéticos del sistema han engañado incluso a los expertos.
Entonces, ¿son los datos sintéticos el clímax del problema de la escasez de datos? Quizás no. Recuerda mi artículo de Sify titulado: Copia de una copia: contenido generado por IA, amenaza para la propia IA. Como señalé en el artículo, el contenido sintético, después de cierto punto, podría llevar al colapso del modelo. Entonces no, todavía no hay una solución final. Marchamos hacia adelante.
Jugadores de equipo, también conocido como aprendizaje federado: Piensa en esto como si fuera un juego multijugador masivo en el que cada jugador mantiene sus cartas cerca de su cofre. Diferentes organizaciones pueden entrenar modelos de IA juntas sin compartir su salsa secreta (también conocida como datos confidenciales). Por ejemplo, los hospitales pueden trabajar juntos para crear una mejor IA médica sin compartir los registros de los pacientes. Bastante bueno, ¿no?
Como ocurre con muchas cosas interesantes de la IA, Google introdujo los conceptos de aprendizaje federado y también ha estado liderando la carga. Si posee un teléfono Android, se ha beneficiado cuando Gboard hace predicciones de la siguiente palabra sin siquiera «ver» sus embarazosos mensajes de texto. Por lo tanto, en lugar de un servidor local, la IA se puede entrenar en decenas, cientos, miles o incluso millones de dispositivos, como afirma el equipo de investigación de Google que han hecho, manteniendo al mismo tiempo los datos locales.
Estas no son las únicas soluciones en el comedor social de la IA. Los próximos grandes acontecimientos van desde lo de sentido común hasta lo tremendamente emocionante.
Superestrellas del autoaprendizaje: Imagine sistemas de inteligencia artificial que puedan aprender como lo hacen los humanos: observando y descubriendo cosas sin que se les enseñe explícitamente. De eso se trata el aprendizaje autosupervisado. ¡Es como darle a los sistemas de inteligencia artificial la capacidad de ver tutoriales de YouTube y aprender de ellos!
Facebook AI Research (ahora Meta AI) se mostró con su modelo SEER, que aprendió de mil millones de imágenes aleatorias de Instagram sin etiquetas. ¿La parte interesante? Funcionó mejor que los modelos entrenados en conjuntos de datos cuidadosamente etiquetados. SEER generó etiquetas de datos a través de relaciones entre imágenes sin etiquetar, lo que se considera clave para desarrollar IA con «sentido común», según Yann LeCun, científico jefe de IA de Facebook. ¡Toma eso, métodos de entrenamiento tradicionales!
Mix and Match, también conocido como Transfer Learning: Esto es como enseñarle a alguien a andar en bicicleta y luego decirle: «¡Oye, estas habilidades te ayudarán a andar en motocicleta!» Los modelos de IA pueden tomar lo que han aprendido de una tarea y aplicarlo a otra, necesitando menos datos nuevos para dominar nuevas habilidades.
Sebastian Ruder, científico investigador de Meta, Berlín, en su tesis doctoral de 2019, argumentó que el aprendizaje por transferencia puede reducir la necesidad de datos específicos de tareas en un margen considerable. ¿A alguien le encanta leer una tesis fundamental de 329 páginas para entender cómo? Haga clic en este enlace y lea.
El comodín: IA agente: Algunos grandes cerebros en este campo, como Ilya Sutskever y Yoshua Bengio, creen que el futuro podrían ser sistemas de inteligencia artificial que puedan aprender de manera más independiente, casi como la forma en que los animales se adaptan a nuevos entornos. El trabajo de Bengio sobre el “Aprendizaje profundo del Sistema 2” sugiere que podríamos crear una IA que razone más como lo hacen los humanos, requiriendo menos datos de fuerza bruta y una comprensión más real. ¡Es como enseñarle a la IA a pescar en lugar de simplemente alimentarla con pescado!
¿Computación cuántica al rescate?: Giro de la trama – Computación cuántica, como he escrito anteriormente.¡Podría ser la salsa secreta que la IA necesita! El laboratorio de IA cuántica de Google ha estado experimentando con algoritmos de aprendizaje automático cuántico que potencialmente podrían aprender de conjuntos de datos más pequeños. El Dr. John Martinis, su ex científico jefe, sugiere que las ventajas cuánticas podrían reducir los requisitos de datos en órdenes de magnitud en los sistemas de inteligencia artificial basados en la computación cuántica. Aunque, seamos honestos, la computación cuántica sigue siendo más «tecnología del futuro» que «lanzamiento de la próxima semana».
La escasez de datos de un equipo es la fuente de creatividad de otro. La escasez de datos en IA está empujando a muchos a ser creativos y repensar cómo entrenamos estos sistemas. Desde la creación de datos sintéticos hasta la enseñanza de la IA para aprender de manera más eficiente, están surgiendo algunas innovaciones impresionantes. Por lo tanto, esta dieta de datos que podría asediar al mundo tal vez no sea tan mala después de todo. Podría ayudarnos a construir sistemas que no sólo sean más grandes, sino también más inteligentes.