A diferencia de los LLM convencionales, estos modelos SR requieren más tiempo para producir respuestas, y este tiempo adicional a menudo aumenta el desempeño en tareas que involucran matemáticas, física y ciencias. Y este último modelo abierto está llamando la atención por alcanzar aparentemente rápidamente a OpenAI.

Por ejemplo, DeepSeek informes que R1 superó a o1 de OpenAI en varios puntos de referencia y pruebas, incluyendo OBJETIVO (una prueba de razonamiento matemático), MATEMÁTICAS-500 (una colección de problemas planteados), y SWE-bench Verificado (una herramienta de evaluación de programación). Como solemos mencionar, los puntos de referencia de IA deben tomarse con cautela y estos resultados aún no se han verificado de forma independiente.

Un gráfico de los resultados de las pruebas comparativas de DeepSeek R1, creado por DeepSeek.


Crédito:

búsqueda profunda


TechCrunch informes que tres laboratorios chinos: DeepSeek, Alibaba y Moonshot AI Como—Ahora han lanzado modelos que, según dicen, coinciden con las capacidades de o1, y DeepSeek mostró por primera vez R1 en noviembre.

Pero el nuevo modelo DeepSeek tiene un problema si se ejecuta en el versión alojada en la nube—Al ser de origen chino, R1 no generará respuestas sobre ciertos temas como la Plaza de Tiananmen o la autonomía de Taiwán, como debe hacerlo»encarnan los valores socialistas fundamentales,» según las regulaciones chinas de Internet. Este filtrado proviene de una capa de moderación adicional que no es un problema si el modelo se ejecuta localmente fuera de China.

Incluso con la posible censura, Dean Ball, investigador de inteligencia artificial de la Universidad George Mason, escribió en X«El impresionante rendimiento de los modelos destilados de DeepSeek (versiones más pequeñas de r1) significa que los razonadores muy capaces seguirán proliferando ampliamente y serán ejecutables en hardware local, lejos de los ojos de cualquier régimen de control de arriba hacia abajo».

Source link