Enero de 2025 ha tenido solo una palabra de moda: Deepseek. La creación de un laboratorio de IA chino homónimo, el Asistente/Modelo de AI Deepseek rompió todos los registros, subiendo a la cima de múltiples cuadros de App Store.
De hecho, el asistente de IA muy hablado, impulsado por Deepseek-V3, superó a su chatgpt rival, convirtiéndose en la aplicación gratuita mejor calificada en la tienda iOS en los Estados Unidos. Todo esto, junto con la afirmación de que el LLM (modelo de lenguaje grande) cuesta solo USD 5.6 millones para entrenar, ha catapultado el modelo AI en el centro de atención, por las razones correctas y no tan derechas. Entonces, ¿de qué se trata profundamente, cómo ha obtenido la fama internacional a un ritmo tan relámpago y cómo amenaza al alterar el orden mundial tecnológico? Vamos a profundizar en él.
Orígenes de Deepseek
Deepseek es una firma de desarrollo de IA fundada en mayo de 2023 en Hangzhou, China, de Liang Wenfeng, quien también cofundó High-Flyer, un fondo de cobertura cuantitativo chino. Actualmente, Deepseek es un laboratorio de investigación de IA independiente bajo el paraguas de High-Flyer, centrándose en desarrollar LLM de código abierto. Después de que se lanzó el primer modelo en noviembre de 2023, la compañía lanzó múltiples variaciones de su Core LLM.
Sin embargo, las cosas dieron la vuelta en enero de 2025 cuando la compañía lanzó su modelo de razonamiento R1, impulsando a la compañía a la fama. ¿Las dos características que causaron el revuelo? Su rentabilidad y eficiencia. La firma construyó su modelo original de código abierto empleando capacitación MOE (mezcla de expertos) en otros modelos líderes.
Además, supuestamente entrenó su modelo de IA sin Chips gráficos de alta gama de Nvidia Esencial para el entrenamiento de IA (aunque usó chips Nvidia menos potentes). Según los informes, esto redujo sus costos computacionales al tiempo que mantiene su rendimiento a la par con otros LLM principales para casos de uso simples. Además, hay múltiples servicios para sus modelos, incluido el acceso a la API, una aplicación móvil y una interfaz web.
¿Qué hace que Deepseek tick y disruptivo?
Según lo que afirma Deepseek, su principal innovación es empuñar sus poderosos modelos grandes para usar menos recursos y funcionar tan bien como otros sistemas. El sistema MOE divide el modelo más grande en submodelos, cada uno de los cuales se especializa en un tipo o tarea de datos específicos. Acompañando este es un sistema de carga que cambia dinámicamente las tareas de submodelos con exceso de trabajo a submodelos poco trabajo, en comparación con otros modelos que penalizan los sistemas ya sobrecargados. Funciona con un dial dentro de los modelos Deepseek llamado «escala de cómputo de infreza», que se amplía hacia arriba o hacia abajo de la computación asignada para que coincida con la complejidad de las tareas asignadas.

Sin embargo, lo que cambió el juego fue el acceso de China, o más bien, el acceso limitado a las chips H100 de vanguardia de Nvidia. Entonces, según Deepseek, sus modelos están diseñados utilizando los chips H800 «más débiles», cuya velocidad de transferencia de datos de chip a chip reducida evita especialmente los controles de exportación. Era el uso forzado de estas chips menos potentes Eso resultó en el avance del marco de precisión mixto de Deepseek, que permitió una capacitación más rápida con menos recursos computacionales.
Entonces, ¿qué cuesta esta configuración sorprendentemente eficiente? Según los representantes de la compañía.
Deepseek entrenó el V3 actual en 2 meses para – obtenga esto, solo USD 5.58 millones. Se trata de cacahuetes en comparación con las decenas de millones de dólares y varios meses que la mayoría de los competidores de Deepseek han gastado entrenando sus modelos de IA. Del mismo modo, los costos de funcionamiento de V3 también son bajos, hasta 21 veces más baratos de correr que, digamos Claude de AnthropeEspecíficamente Claude 3.5 soneto. Los avances de Deepseek en las capacidades de razonamiento son indicativos de cuán significativo ha sido el progreso en el desarrollo de la IA.
La carrera esta encendida
El hecho de que Deepseek podría construirse en menos tiempo, usando menos cálculo y menos dinero, y podría ejecutarse en máquinas menos costosas localmente, ha tenido expertos argumentando que en la carrera hacia más grande y mejor, podrían haber perdido la oportunidad de construir más pequeño y más inteligente. V3 supera a ambos: modelos cerrados, solo accesibles, como GPT-4O de Openaiy modelos abiertamente disponibles y descargables como Meta’s Llama, según las pruebas de referencia internas de Deepseek.
El modelo de «razonamiento» R1 de Deepseek es igualmente impresionante, actuando tan bien como el modelo O1 de OpenAI en métricas clave, según la compañía. Dado que es un modelo de razonamiento, R1 se verifica en sí mismo, lo que ayuda a evitar algunas trampas significativas que normalmente se aplican otros modelos de IA. Si bien el razonamiento lleva un poco más de tiempo llegar a soluciones en comparación con los modelos habituales de no razonamiento, generalmente son más confiables en arenas como matemáticas, ciencias y física.
¿Deepseek es todo?
Si Deepseek tiene un modelo de negocio, lo que el modelo es exactamente no está claro. La compañía precios de sus servicios y productos muy por debajo del valor de mercado, y también regala a otros de forma gratuita. Además, hay un inconveniente único no solo para V3, sino también R1 y otros modelos Deepseek. Como están desarrollados por los chinos, el regulador de Internet de China los somete a la evaluación comparativa interna. El resultado? Sus respuestas simbolizan los valores socialistas centrales. Entonces, cuando use la aplicación Chatbot de Deepseek, digamos R1, por ejemplo, no responderá preguntas sobre la autonomía de Taiwán o la plaza Tiananmen.
Dicho esto, la forma en que Deepseek cuenta la historia, sus avances de eficiencia han permitido al modelo mantener su competitividad de costos extremos. Si bien algunos expertos advierten que las cifras suministradas por la compañía son una subestimación, no hay duda de que las implicaciones son profundas.