Análisis La velocidad y la eficiencia en la que Deepseek afirma estar capacitando modelos de idiomas grandes (LLMS) competitivos con los mejores de Estados Unidos ha sido una verificación de la realidad para Silicon Valley. Sin embargo, la startup no es el único constructor de modelos chinos que Estados Unidos tiene que preocuparse.
Esta semana, la nube china y el comercio electrónico Goliat Alibaba dio a conocer una ráfaga de LLMS, incluida lo que parece ser una nueva modelo fronterizo Llamado Qwen 2.5 Max que considera que no solo supera al V3 de Deepseek, en el que se basa el R1 con capacidad de razonamiento, sino que está basado en los mejores modelos de Estados Unidos.
Como siempre, recomendamos tomar puntos de referencia con un grano de sal, pero si se cree en Alibaba, qwen 2.5 Max, que puede buscar en la web y emitir texto, video e imágenes de las entradas, logró realizar el GPT-4O de OpenAI. , Sonnet Claude 3.5 de Anthrope, y Meta’s Llama 3.1 405b a través de las populares suites de Benchmark-Benchmark de Arena Hard, MMLU-Pro, GPQA-Diamond, LivecodeBench y LiveBench.
Dado el fervor alrededor de Deepseek, nos sentimos obligados a enfatizar que Alibaba está haciendo comparaciones contra V3 y no el Modelo R1 que tiene el mundo lleno de vida. Esto también podría explicar la comparación con GPT-4O en lugar de los modelos O1 insignia de OpenAi.
En cualquier caso, el anuncio alimenta aún más la percepción de que, a pesar de los esfuerzos continuos para sofocar el desarrollo de la IA chino por Occidente, el líder de los Estados Unidos en la IA puede no ser tan grande como se pensaba anteriormente. Y la percepción de que los innumerables miles de millones de dólares exigidos por Silicon Valley para desarrollar inteligencia artificial se ve un poco codiciosa.
Velocidades y alimentos o falta de
Desafortunadamente, más allá de las afirmaciones de rendimiento, el acceso a la API y un chatbot basado en la web, el equipo Qwen de Alibaba está siendo bastante apretado sobre su último lanzamiento de modelo. A diferencia de Deepseek, cuyos modelos están disponibles para descargar y usar libremente si no desea confiar en las aplicaciones o la nube de Deepseek, Alibaba no ha lanzado Qwen 2.5 Max. Está disponible para acceder desde los servidores de Alibaba.
Lo que sí sabemos hasta ahora es Qwen 2.5 Max es una mezcla a gran escala de modelo experto (MOE) que fue entrenado en un corpus de 20 billones de tokens antes de ser refinado aún más utilizando el aprendizaje supervisado de ajuste fino y refuerzo de la retroalimentación humana.
Como su nombre lo indica, los modelos MOE como la serie Mistral y el V3 y R1 de Deepseek comprenden Varios expertos artificialesSi lo desea, que han sido capacitados para manejar tareas específicas, como codificación o matemáticas.
Los modelos MOE se han vuelto cada vez más populares entre los constructores de modelos para desacoplar el recuento de parámetros desde el rendimiento real. Porque solo una parte del modelo está activa para cualquier solicitud dada, no es necesario activar toda la red neuronal para abordar una consulta, solo las partes «expertas» relevantes para la pregunta, ahora es posible aumentar el recuento de parámetros sin comprometer el rendimiento.
Es decir, en lugar de ejecutar una consulta de entrada a través de toda la red multimillonario de parámetros, realizando todos esos cálculos por token, solo se utilizan capas relevantes para la consulta, lo que significa que las salidas se generan más rápido.
En este punto, Alibaba no ha revelado cuán grande es Qwen 2.5 Max. Sin embargo, sabemos el anterior El modelo Qwen Max tenía alrededor de 100 mil millones de parámetros de tamaño.
El registro contactó a Alibaba para hacer comentarios; Te avisaremos si recibimos respuesta. Mientras tanto, le preguntamos a Qwen 2.5 Max, a través de su chatbot en línea forma, para compartir sus especificaciones, y tampoco parece saber mucho sobre sí. Pero incluso si escupió un número, no estamos seguros de que lo creamos.
Rendimiento a qué costo
A diferencia de muchos Modelos QWen anterioresEs posible que nunca obtengamos los pesos de la red neuronal de Qwen 2.5 Max. En el sitio web de Alibaba Cloud, el modelo aparece como propietario, lo que podría explicar por qué el Super-Corpor chino comparte tan poco sobre el modelo.
No revelar los recuentos de parámetros y otros detalles clave es el curso para el curso de muchos constructores de modelos, incluida la Alibaba ha sido de manera similar con los modelos propietarios de Qwen Turbo y Qwen Plus.
La falta de detalles hace que la evaluación del rendimiento del modelo sea algo desafiante, ya que el rendimiento debe ser ponderado contra el costo. Un modelo puede realizar otro en puntos de referencia, pero si cuesta 3-4x más en ejecución, puede que no valga la pena. Este ciertamente parece ser el caso con Qwen 2.5 Max.
Por el momento, el sitio web de Alibaba tiene acceso API al modelo listado A $ 10 por millón de tokens de entrada y $ 30 por cada millón de tokens generados. Compare eso con GPT-4O, para lo cual es OpenAi carga $ 2.50 por millón de tokens de entrada y $ 10 por millón de tokens de salida, o la mitad de eso si opta por su procesamiento por lotes.
Dicho esto, Qwen 2.5 Max sigue siendo más barato que el modelo O1 insignia de OpenAI que le ejecutará $ 15 por millón de tokens de entrada y $ 60 por millón de tokens de salida generados.
Una familia en crecimiento
Como se mencionó, el último modelo QWEN de Alibaba es solo el último de una cadena de LLM lanzadas por el mega-biz chino desde 2023. Su generación más reciente de modelos, que lleva el nombre QWEN 2.5, comenzó, goteo Fuera en septiembre, con Alibaba liberando abiertamente las versiones de 0.5, 1.5, 3, 7, 14, 32 y 72 mil millones de parámetros.
Pit contra sus contemporáneos, Alibaba afirmó que el más grande de estos modelos podría ir cara a cara y, en algunos casos, el mejor modelo de LLAMA 405B mucho más grande de Meta. Pero nuevamente, recomendamos tomar estas afirmaciones con un grano de sal aquí.
Junto con sus modelos de propósito general, Alibaba también lanzó los pesos para varios LLM de matemáticas y optimizadas en código y el acceso extendido a un par de modelos patentados llamados Qwen Plus y Qwen Turbo, que se jactaban de un supuesto rendimiento a una distancia de escisión de GPT-4O y GPT- 4o mini.
En diciembre, detallado Su modelo de estilo OpenAI O1 «Pensamiento» llamado QWQ. Y luego esta semana, antes del lanzamiento de Qwen 2.5 Max, el proveedor de la nube anunciado Un trío de modelos de lenguaje de visión abierta (VLMS) que pesa 3, 7 y 72 mil millones de parámetros de tamaño. Alibaba sostiene que el más grande de estos modelos es competitivo con Gemini 2 de Google, GPT-4O de OpenAI y el soneto Claude 3.5 de Anthrope, al menos en los puntos de referencia de Vision de todos modos.
Si eso no fuera suficiente, esta semana también vio a Alibaba desenrollar Las versiones actualizadas de sus modelos Qwen 2.5 de 7 y 14 mil millones de parámetros, que aumentan su ventana de contexto, esencialmente su memoria a corto plazo, a un millón de tokens.
Las ventanas de contexto más largas pueden ser particularmente útiles para la generación aumentada de recuperación, también conocido como trapo, lo que permite a los modelos analizar grandes cantidades de información de documentos sin perderse.
PREGUNTAS Y PREGUNTAS PERSONA QUE
Pero a pesar de todas las exageraciones que los constructores de modelos chinos han disfrutado y volatilidad del mercado Han causado la semana pasada, persisten preguntas y preocupaciones sobre la censura y la privacidad.
Como señalamos con Deepseek, los datos de los usuarios recopilados por sus servicios en línea se historizarán en China, según su política de privacidad. Es una historia similar con el chat Qwen de Alibaba, que puede almacenar datos en sus centros de datos de Singapur o chinos.
Esto podría ser una preocupación importante para algunos, pero para otros plantea un riesgo legítimo. Publicando en X a principios de esta semana, API Operai Dev Steve Heidel burlón«A los estadounidenses les encanta regalar sus datos al PCCh a cambio de cosas gratis».
Las preocupaciones también han sido aumentó sobre la censura de temas controvertidos que pueden pintar el régimen de Beijing en una luz desfavorable. Así como hemos visto con modelos chinos anteriores, tanto Deepseek como Alibaba dejarán de lado información sobre temas confidenciales, detener la generación prematuramente o negarse directamente a responder preguntas sobre temas como la masacre de Tiananmen Square o el estado político de Taiwán. ®