Hace menos de dos semanas, una compañía china apenas conocida lanzó su último inteligencia artificial (Ai) modelo y envió ondas de choque en todo el mundo.
Deepseek reclamado en un documento técnico cargado a Girub que se logró su modelo R1 de peso abierto Resultados comparables o mejores que los modelos de IA hechos por algunos de los principales gigantes de Silicon Valley, a saber, el chatgpt de OpenAi, la llama de Meta y el Claude de Anthrope. Y lo más asombroso, el modelo logró estos resultados mientras estaba entrenado y ejecutado a una fracción del costo.
La respuesta del mercado a las noticias del lunes fue nítida y brutal: a medida que Deepseek se convirtió en el la aplicación gratuita más descargada En la App Store de Apple, $ 1 billón se eliminaron de las valoraciones de las principales empresas tecnológicas estadounidenses.
Y Nvidia, una compañía que hace que los chips gráficos H100 de alta gama se presumieran esenciales para la capacitación de IA, perdió $ 589 mil millones en valoración en el Pérdida de mercado más grande de un día en la historia de los Estados Unidos. Deepseek, después de todo, dijo que entrenó su modelo de IA sin ellos, aunque usó chips Nvidia menos potentes. Las empresas de tecnología estadounidense respondieron con Panic e IRE, con representantes de Operai incluso sugiriendo que Deepseek partes plagiadas de sus modelos.
Relacionado: AI ahora puede replicarse, un hito que tiene expertos aterrorizados
Los expertos en IA dicen que la emergencia de Deepseek ha volcado un dogma clave que sustenta el enfoque de crecimiento de la industria, lo que demuestra que más grande no siempre es mejor.
«El hecho de que Deepseek podría construirse por menos dinero, menos cálculo y menos tiempo y se puede ejecutar localmente en máquinas menos costosas, argumenta que, a medida que todos corrían hacia cada vez más grande, perdimos la oportunidad de construir más inteligente y más pequeña». Kristian Hammond, Un profesor de informática en la Universidad de Northwestern, dijo Live Science en un correo electrónico.
Pero, ¿qué hace que los modelos V3 y R1 de Deepseek sean tan disruptivos? La clave, dicen los científicos, es la eficiencia.
¿Qué hace que las modelos de Deepseek funcionen?
«De alguna manera, los avances de Deepseek son más evolutivos que revolucionarios», Ambuj tewariUn profesor de estadísticas e informática en la Universidad de Michigan, dijo Live Science. «Todavía están operando bajo el paradigma dominante de modelos muy grandes (100s de miles de millones de parámetros) en conjuntos de datos muy grandes (billones de tokens) con presupuestos muy grandes».
Si tomamos las afirmaciones de Deepseek al pie de la letra, dijo Tewari, la principal innovación del enfoque de la compañía es cómo ejerce sus modelos grandes y poderosos para ejecutar tan bien como otros sistemas mientras usa menos recursos.
La clave de esto es un sistema de «mezcla de expertos» que divide los modelos de Deepseek en submodelos que se especializan en una tarea o tipo de datos específico. Esto se acompaña de un sistema de carga que, en lugar de aplicar una penalización general para retrasar un sistema sobrecargado como lo hacen otros modelos, cambia dinámicamente las tareas de submodelos con exceso de trabajo a submodelos.
«(Esto) significa que a pesar de que el modelo V3 tiene 671 mil millones de parámetros, solo 37 mil millones están activados para cualquier token dado», dijo Tewari. Un token se refiere a una unidad de procesamiento en un modelo de lenguaje grande (LLM), equivalente a un trozo de texto.
Forzando este equilibrio de carga es una técnica conocida como «escala de cómputo de inferencia», un dial dentro de los modelos de Deepseek que rampas asignaron la calculación hacia arriba o hacia abajo para que coincida con la complejidad de una tarea asignada.
Esta eficiencia se extiende a la capacitación de los modelos de Deepseek, que los expertos citan como una consecuencia involuntaria de las restricciones de exportación estadounidenses. PorcelanaEl acceso a los chips H100 de última generación de NVIDIA es limitado, por lo que Deepseek afirma que construyó sus modelos con chips H800, que tienen una velocidad de transferencia de datos de chip a chip reducida. Nvidia diseñó este chip «más débil» en 2023 específicamente para eludir los controles de exportación.
Un tipo más eficiente de modelo de lenguaje grande
La necesidad de usar estos chips menos potentes obligó a Deepseek a hacer otro avance significativo: su marco de precisión mixto. En lugar de representar todos los pesos de su modelo (los números que establecen la fuerza de la conexión entre las neuronas artificiales de un modelo de IA) utilizando números de puntos flotantes de 32 bits (FP32), entrenó a partes de su modelo con 8 bits menos precisos de 8 bits Números (FP8), cambiando solo a 32 bits para cálculos más difíciles donde es importante la precisión.
«Esto permite una capacitación más rápida con menos recursos computacionales». Thomas CaoUn profesor de política tecnológica en la Universidad de Tufts, dijo Live Science. «Deepseek también ha refinado casi cada paso de su tubería de entrenamiento: carga de datos, estrategias de paralelización y optimización de la memoria) para que logre muy alta eficiencia en la práctica».
Del mismo modo, si bien es una práctica común entrenar modelos de IA utilizando etiquetas proporcionadas por humanos para obtener la precisión de las respuestas y el razonamiento, el razonamiento de R1 no está supervisado. Utiliza solo la corrección de las respuestas finales en tareas como las matemáticas y la codificación de su señal de recompensa, que libera recursos de capacitación para ser utilizados en otro lugar.
Todo esto se suma a un par de modelos sorprendentemente eficientes. Mientras que los costos de capacitación de los competidores de Deepseek se topan con el decenas de millones a cientos de millones de dólares Y a menudo tardan varios meses, los representantes de Deepseek dicen que la compañía capacitó a V3 en dos meses por solo $ 5.58 millones. Los costos de ejecución de Deepseek V3 son igualmente bajos – 21 veces más barato para correr que Soneto Claude 3.5 de Anthrope.
CAO tiene cuidado de tener en cuenta que la investigación y el desarrollo de Deepseek, que incluye su hardware y una gran cantidad de experimentos de prueba y error, significa que casi seguramente gastó mucho más que esta cifra de $ 5.58 millones. No obstante, sigue siendo una caída lo suficientemente significativa en el costo para haber atrapado a sus competidores de pie plano.
En general, los expertos en IA dicen que la popularidad de Deepseek es probablemente positiva neta para la industria, reduciendo los costos de recursos exorbitantes y reduciendo la barrera de entrada para investigadores y empresas. También podría crear espacio para que más fabricantes de chips que Nvidia ingresen a la carrera. Pero también viene con sus propios peligros.
«Como los métodos más baratos y más eficientes para desarrollar modelos de IA de vanguardia están disponibles públicamente, pueden permitir que más investigadores en todo el mundo busquen el desarrollo de LLM de vanguardia, lo que potencialmente acelera el progreso científico y la creación de aplicaciones», dijo Cao. «Al mismo tiempo, esta barrera de entrada más baja plantea nuevos desafíos regulatorios, más allá de la rivalidad entre Estados Unidos y China, sobre el mal uso o los efectos potencialmente desestabilizadores de la IA avanzada por parte de los actores estatales y no estatales».