Porcelana ha lanzado un rival barato y de código abierto para el chatgpt de OpenAi, y tiene algunos científicos entusiasmados y preocupados por Silicon Valley.
Deepseek, los chinos inteligencia artificial (Ai) laboratorio detrás de la innovación, presentó su modelo de lenguaje grande (LLM) Deepseek-v3 a fines de diciembre de 2024 y lo afirma fue construido en dos meses por solo $ 5.58 millones, una fracción del tiempo y el costo requeridos por sus competidores de Silicon Valley.
Después de sus talones, se encuentra un modelo aún más nuevo llamado Deepseek-R1, lanzado el lunes (20 de enero). En pruebas de referencia de terceros, Deepseek-V3 coincidía con las capacidades de GPT-4O de Openai y Claude Sonnet 3.5 de Anthrope mientras superan a otros, como Meta’s Llama 3.1 y Qwen2.5 de Alibaba, en tareas que incluían la resolución de problemas, la codificación y las matemáticas.
Ahora, R1 también tiene superado El último modelo O1 de ChatGPT en muchas de las mismas pruebas. Esta impresionante actuación a una fracción del costo de otros modelos, su naturaleza semi-abierta de código abierto y su capacitación en unidades de procesamiento de gráficos significativamente menos (GPU) ha cautivado a los expertos en IA y ha elevado el espectro de los modelos de IA de China que superan sus homólogos estadounidenses.
«Deberíamos sacar los desarrollos de China muy, muy en serio», Satya NadellaEl CEO de Microsoft, un socio estratégico de OpenAI, dijo en el Foro Económico Mundial en Davos, Suiza, el 22 de enero.
Relacionado: AI ahora puede replicarse, un hito que tiene expertos aterrorizados
Los sistemas de IA aprenden utilizando datos de capacitación tomados de la entrada humana, lo que les permite generar salida en función de las probabilidades de diferentes patrones que surgen en ese conjunto de datos de capacitación.
Para modelos de idiomas grandes, estos datos son texto. Por ejemplo, el GPT-3.5 de Openai, que se lanzó en 2023, fue entrenado en aproximadamente 570 GB de datos de texto del repositorio Rastreo común – que equivale a aproximadamente 300 mil millones de palabras, tomadas de libros, artículos en línea, Wikipedia y otras páginas web.
Los modelos de razonamiento, como R1 y O1, son una versión actualizada de LLM estándar que usan un método llamado «cadena de pensamiento» para retroceder y reevaluar su lógicalo que les permite abordar tareas más complejas con mayor precisión.
Esto ha hecho que los modelos de razonamiento sean populares entre los científicos e ingenieros que buscan integrar la IA en su trabajo.
Pero a diferencia de la O1 de ChatGPT, Deepseek es un modelo de «peso abierto» que (aunque sus datos de entrenamiento permanecen propietarios) permite a los usuarios mirar y modificar su algoritmo. Igual de importante es su precio reducido para los usuarios, 27 veces menos que O1.
Además de su rendimiento, la exageración sobre Deepseek proviene de su rentabilidad; El presupuesto reducido del modelo es minúsculo en comparación con el decenas de millones a cientos de millones que las compañías rivales gastaron para capacitar a sus competidores.
Además, los controles de exportación de EE. UU., Que limitan el acceso de las empresas chinas a los mejores chips informáticos de inteligencia artificial, obligaron a los desarrolladores de R1 a construir algoritmos más inteligentes y más eficientes en energía para compensar su falta de potencia informática. Según los informes, chatgpt necesitaba 10,000 GPU NVIDIA para procesar sus datos de capacitaciónLos ingenieros de Deepseek dicen que lograron resultados similares con solo 2,000.
Queda por ver cuánto se traducirá en aplicaciones científicas y técnicas útiles, o si Deepseek simplemente ha capacitado a su modelo a las pruebas de referencia ACE, queda por ver. Los científicos y los inversores de IA están observando de cerca.