Análisis La onda de choque después del lanzamiento de modelos de IA competitivos de la startup china Deepseek ha llevado a muchos a cuestionar la suposición de que arrojar cada vez más dinero a una costosa infraestructura basada en GPU a gran escala ofrece los mejores resultados.
Deepseek no es el único fabricante chino de LLM Openai y los amigos tienen que preocuparse. ¿Correcto, Alibaba?
Como El registro reportado anteriormenteLas acciones de algunas de las marcas tecnológicas estadounidenses más grandes en el auge de la IA cayeron después del debut del modelo Deepseek R1, que se dice que se desempeña favorablemente contra los de OpenAi y Meta y fue entrenado con menos GPU NVIDIA.
Las afirmaciones de la compañía con sede en China de que el desempeño de Deepseek está a la par con los mejores modelos existentes y que cuesta menos de $ 6 millones para entrenar tampoco están verificados.
El movimiento puso en duda la suposición de que gastar miles de millones en la infraestructura del centro de datos en una carrera para construir modelos más grandes y más complejos es el camino a seguir si China puede hacer esto con suministros limitados de hardware más antiguo. Nvidia, que ha disfrutado de ganancias récord de sus aceleradores de GPU para AI, perdió casi $ 600 mil millones fuera de su valoración del mercado en un día.
La histeria viene además de una creciente inquietud que se está canalizando más inversiones en el desarrollo de la IA y la infraestructura para apoyarla, con poco regreso ser visto hasta ahora.
Sin embargo, el pánico inital puede haber sido fuera de lugar a medida que las acciones de la tecnología de EE. UU. Pronto se detuvieron, y los expertos señalaron que Deepseek parece haber usado Salida de modelos existentes desarrollado por Anthrope y OpenAi en su entrenamiento. Las afirmaciones de la compañía con sede en China de que el rendimiento de Deepseek está a la par con los mejores modelos existentes y que cuesta menos de $ 6 millones para entrenar también no están verificados.
«Creo que las preocupaciones con respecto a las innovaciones de Deepseek son muy exageradas», dijo a Manoj Sukumaran, analista principal de Omdia para Datacenter IT, Manoj Sukumaran El registro.
«No hay duda de que hay algunas innovaciones ingeniosas en el modelo de pre-entrenamiento del modelo de Deepseek, como el uso del aprendizaje de refuerzo como una metodología de entrenamiento central, alejándose de la dependencia de grandes conjuntos de datos etiquetados, activación dispersa de los parámetros del modelo y una ruta adaptativa a Seleccione los modelos expertos para trabajar «, dijo.
Pero estas innovaciones son esenciales para que Genai sea accesible para más usuarios, agregó Sukumaran, y en su lugar acelerarán la adopción de los usuarios de esta tecnología.
En cuanto a la infraestructura para alimentar todo esto, Sukumaran dice que es probable que continúen los edificios masivos de IA.
«El mercado de inferencias de IA se está desarrollando y crecerá significativamente en los próximos años. Omdia ha estimado que el número de servidores enviados cada año para la inferencia de IA aumentará a un CAGR del 17 por ciento a 2028», agregó.
Sin embargo, la operación de investigación con sede en Taiwán Fuerza de tendencia dice que espera ver a las organizaciones realizar evaluaciones más rigurosas de las inversiones de infraestructura de IA en el futuro, y centrarse en adoptar modelos más eficientes para reducir la dependencia de hardware como las GPU.
El analista también prevé un crecimiento en la adopción de infraestructura utilizando ASIC personalizados (circuitos integrados específicos de la aplicación) para reducir los costos de implementación, y esa demanda de productos basados en GPU podría ver «cambios notables» desde 2025 en adelante.
«Históricamente, la industria de la IA se ha basado en modelos de escala, aumentando el volumen de datos y la mejora del rendimiento del hardware para el crecimiento. Sin embargo, los costos y los desafíos de eficiencia han provocado un cambio en la estrategia», dice Trendforce. «Deepseek ha adoptado técnicas de destilación de modelos para comprimir modelos grandes, mejorar la velocidad de inferencia y reducir las dependencias de hardware».
A principios de esta semana, el CEO de IBM, Arvind Krishna, dijo que vio en Deepseek alguna validación para el enfoque de su propia compañía hacia la IA.
«Hemos sido muy vocales durante aproximadamente un año que los modelos más pequeños y los tiempos de capacitación más razonables serán esenciales para el despliegue empresarial de modelos de idiomas grandes. Hemos bajado ese viaje durante más de un año», afirmó Krishna durante la compañía. Llamada de ganancias reciente.
«Vemos hasta 30 veces la reducción en los costos de inferencia utilizando estos enfoques. A medida que otras personas comienzan a seguir esa ruta, creemos que esto es increíblemente bueno para nuestros clientes empresariales. Y ciertamente lo aprovecharemos en nuestro negocio, pero Creo que otros también seguirán esa ruta «.
En una nota sobre las implicaciones de Deepseek emitido por Gartner, el analista dijo que la escala eficiente de la IA será en el futuro más importante que la cantidad de cómputo que se puede ensamblar para construirla.
«Los sistemas de ingeniería profunda de profundidad combinan modelos, marcos e infraestructuras subyacentes para utilizar de manera más efectiva los recursos de infraestructura. Esto resulta en costos más bajos al tiempo que ofrecen eficiencias», observó.
Sin embargo, dijo que la IA china no establece un nuevo estado del arte para el rendimiento del modelo, ya que a menudo coincide, pero no supera los modelos existentes.
En cuanto a la infraestructura, Gartner dice que «no es una prueba de que la escala de los modelos a través de un cómputo adicional y los datos no importan, pero que vale la pena escalar un modelo más eficiente».
La conclusión es que Deepseek no conducirá repentinamente a una caída drástica en la demanda de infraestructura de IA, por lo que los inversores de Nvidia y los que bombean dinero en los centros de datos pueden descansar un poco más fácilmente. Tampoco es el presagio de la burbuja de IA que estallaron los que algunos anticipan.
En cambio, sirve como un recordatorio de que las cosas siempre se pueden hacer mejor, y que simplemente arrojar dinero y recursos a un problema no siempre es la mejor manera de resolverlo.
«La relación de precio / rendimiento superior de Deepseek sirve como una verificación de la realidad para la industria de la IA, particularmente las empresas estadounidenses y sus patrocinadores de capital de riesgo», dijo Neil Roseman, CEO de la firma de seguridad Invicti. «Si bien las empresas hacen apuestas masivas en la IA, los resultados actuales no justifican estas inversiones. El éxito vendrá de un desarrollo eficiente y enfocado que aborda las necesidades genuinas». ®