Qwen3-Coder-Next: el modelo de código de Alibaba, medido con benchmark propio

Qwen3-Coder-Next es el #4 de mi benchmark de 98 modelos con 8.10 sobre 10 (v2.9, junio 2026). Es un modelo de código de Alibaba que activa solo 3B de sus 80B parámetros por consulta — y la sorpresa de mi medición es que sus mejores números no están en código: es el #1 del benchmark completo en conversación multi-turno y en soporte al cliente. Acá va el análisis: qué es, qué números saca, dónde falla y cómo usarlo sin quemar plata.

Qué es Qwen3-Coder-Next

Qwen3-Coder-Next es el modelo de código de nueva generación del equipo Qwen de Alibaba, lanzado el 3 de febrero de 2026. Ficha técnica verificable:

Mixture-of-Experts ultra-disperso: 80B parámetros totales, 3B activos por consulta — la relación de dispersión más agresiva del top de mi ranking
Licencia Apache 2.0 — open source sin restricciones comerciales
Contexto nativo de 256K tokens, extensible hasta 1M según Alibaba (lo que verifiqué de eso, más abajo)
Entrenado en dos fases: 600B tokens de datos a nivel repositorio + un pipeline agéntico con 800.000 tareas de código verificables
Soporta 370 lenguajes de programación
Al salir marcó 70.6% en SWE-bench Verified, de lo más alto entre modelos abiertos de su momento

El dato de arquitectura importa para el bolsillo: activar 3B de 80B significa que pagas (o computas) como modelo chico mientras consultas el conocimiento de uno grande. Es la misma apuesta de DeepSeek V4 Flash (284B/13B), llevada más al extremo.

🧠 ¿No sabes qué modelo de IA usar?

Intro a LLMs te da el criterio para elegir modelo por costo y caso de uso — y cierra con un test A/B real de 5 modelos en OpenRouter.

Ver el curso

Lo que dice mi benchmark

Contexto rápido para que los números signifiquen algo. Mi benchmark corre hace meses: 98 modelos con cobertura real, más de 13.000 ejecuciones, todo en español y con tareas aplicadas — workflows de n8n, scripts, contenido, razonamiento, extracción de datos. El juez es Phi-4, un modelo de Microsoft corriendo local en mi infraestructura: no evalúo modelos de Microsoft, así que el que pone las notas no tiene equipo en la cancha. El score compuesto pesa 60% calidad, 20% costo, 10% velocidad y 10% latencia.

Los números de Qwen3-Coder-Next en la versión 2.9 (junio 2026), medidos vía OpenRouter (FP8) con 103 ejecuciones más 135 corridas de contexto largo:

Métrica	Qwen3-Coder-Next	Posición
Score global	8.10	#4 de 89
Calidad pura	8.22	#12
Pilar Coding	8.04	#5
Pilar Agentes	7.80	#4
Pilar Contenido	8.09	#6
Conversación multi-turno	8.25	#1 de 89
Soporte al cliente	8.64	#1
Salida estructurada (JSON)	8.72	#2
Velocidad / latencia	104 tokens/s / 14.5 s	—
Costo por 1.000 llamadas	$1.23	tier barato

Dos lecturas de esa tabla.

La primera: el salto generacional es real. El Qwen3 Coder anterior está en el puesto #60 de mi ranking con 5.39; la versión Next está #4 con 8.10. Cincuenta y seis puestos de mejora entre dos versiones de la misma familia. Cuando Alibaba dice que re-entrenó el modelo con un pipeline agéntico nuevo, los números le dan la razón.

La segunda es la rara: un modelo vendido para código tiene sus mejores posiciones fuera del código. #1 en conversación multi-turno (mantener el hilo y el criterio a lo largo de varios mensajes), #1 en soporte al cliente, #2 en salida estructurada. Mi hipótesis: las 800.000 tareas agénticas verificables le entrenaron la disciplina — seguir instrucciones largas sin desviarse — y esa disciplina paga en cualquier conversación con estructura, no solo en código.

El matiz honesto: dónde falla

En código puro no es el líder. 8.04 en el pilar Coding es #5 — muy bueno, pero Devstral Small saca 8.58 costando $0.48 por 1.000 llamadas contra $1.23. Si tu único caso de uso es generar código acotado, hay una opción mejor y a menos de la mitad del precio.

Contexto largo flojo. Alibaba declara 256K nativo extensible a 1M. Mi suite le verificó retrieval correcto hasta 128K — y su calidad promedio en tareas de contexto largo es 5.8, de lo más bajo del top 10. Para un modelo pensado para leer repositorios completos, es la debilidad que más duele. Si necesitas tragar codebases gigantes de una pasada, DeepSeek V4 Flash (800K usables verificados) es otra liga.

Seguridad mala. 3.53 en resistencia a prompt injection en español, score agregado de seguridad 1.78. Igual que casi todo el top open source de mi tabla: si el agente maneja credenciales con input de terceros, este modelo no puede ser la única barrera.

La salida cara. $0.80 por millón de tokens de salida es 2.7 veces lo que cobra Devstral. En tareas verbosas (refactors largos, explicaciones) la cuenta crece más rápido de lo que el precio de entrada sugiere.

Y el matiz de método de siempre: mido tareas acotadas en español, no debugging agéntico de horas sobre repos reales. El 70.6% de SWE-bench Verified lo reporta Alibaba, no yo — mi benchmark mide otra cosa y por eso los números no se mezclan.

Cuándo usarlo y cuándo no

Úsalo si tu caso es:

Chatbots de soporte o agentes conversacionales que necesitan mantener el hilo y devolver datos estructurados — la combinación #1 multi-turno + #1 soporte + #2 JSON es única en mi tabla
Trabajo agéntico de código: explorar, editar en varios pasos, seguir un plan (#4 del pilar Agentes)
Código en lenguajes poco comunes — 370 lenguajes soportados es cobertura que pocos declaran

No lo uses si:

Solo generas código acotado → Devstral Small es mejor y más barato
Tu tarea necesita leer más de 128K tokens de una vez → DeepSeek V4 Flash
El agente maneja secretos con input no confiable (3.53 en prompt injection)
El presupuesto manda y tu carga es de salida larga — la salida a $0.80/M pesa

Cómo usarlo barato (o gratis)

OpenRouter (FP8) — la vía que uso en el benchmark: $0.11/$0.80 por millón de tokens, $1.23 por cada 1.000 llamadas con mi supuesto de consumo. La misma carga en Claude Opus 4.8 por API cuesta $39.
Local en hardware grande — los pesos son Apache 2.0. No es para laptops: cuantizado a 4-bit pide del orden de 45-50 GB de memoria. La referencia pública es la versión FP8 a ~43 tokens/s en una NVIDIA DGX Spark; tengo la variante Q4 en cola de medición en mi propio Spark, sin números aún — cuando los tenga, se actualizan acá. Para modelos que sí corren en una laptop común, mira la guía de Gemma 4.
Dentro de un coding agent — si el plan es conectarlo a Claude Code u otro agente en vez de pagar suscripción premium, el setup lo expliqué en cómo usar Claude Code sin pagar $200 al mes: la lógica es la misma, cambia el modelo.

Qwen3-Coder-Next vs Devstral Small

El #4 contra el #1, los dos especializados en código, los dos open source, con mis números y la misma vara:

	Qwen3-Coder-Next	Devstral Small
Score global compuesto	8.10 (#4)	8.28 (#1)
Calidad pura	8.22	8.03
Pilar Coding	8.04	8.58
Conversación multi-turno	8.25 (#1)	7.99
Salida estructurada	8.72	8.09
Precisión de strings	7.68	9.06
Costo por 1.000 llamadas	$1.23	$0.48
Parámetros (totales/activos)	80B / 3B	24B densos

La lectura: para código acotado y extracción exacta, Devstral sigue siendo el pick — mejor y a menos de la mitad del precio. Qwen3-Coder-Next se justifica cuando la tarea es conversacional o agéntica: varios turnos, estructura de salida estricta, seguir un plan largo. Son dos herramientas distintas que el marketing mete en la misma caja de “modelo de código”.

Ver en el Benchmark: Qwen3-Coder-Next aparece con su score actualizado en el ranking de mejores LLM para programar, que se regenera con cada lote mensual. El análisis metodológico completo, con los 98 modelos, está en el post vivo del benchmark.

El ranking sigue vivo (y este post no)

Las cifras de arriba son de cuando lo escribí. El score de cada modelo es relativo a todos los demás, así que cada modelo nuevo que mido recalcula el de todos — incluidos los de este artículo. Si viniste a decidir hoy, mirá la fuente que se actualiza sola:

el ranking vivo de modelos para programar
el ranking de open source
La calculadora — ajustá los pesos a tu caso: si corrés de noche, la latencia no te importa y el ranking la penaliza igual.

Todo el código y los datos están abiertos en GitHub.

Preguntas frecuentes

¿Qué es Qwen3-Coder-Next?

Qwen3-Coder-Next es un modelo open source del equipo Qwen de Alibaba, lanzado el 3 de febrero de 2026 bajo licencia Apache 2.0. Usa Mixture-of-Experts ultra-disperso: 80B parámetros totales que activan solo 3B por consulta. Está especializado en código (entrenado con 800.000 tareas de programación verificables) y soporta 370 lenguajes. En mi benchmark de 98 modelos es el #4 del ranking compuesto (8.10 en v2.9, junio 2026).

¿Qué computador necesito para correr Qwen3-Coder-Next local?

Son 80B parámetros totales, así que no corre en una laptop común: cuantizado a 4-bit pide del orden de 45-50 GB de memoria. La referencia publicada es la versión FP8 nativa rindiendo unos 43 tokens por segundo en una NVIDIA DGX Spark. Como activa solo 3B parámetros por consulta, en hardware con memoria suficiente la velocidad es buena. Si tu equipo no llega, OpenRouter lo sirve por $0.11/$0.80 por millón de tokens.

¿Qwen3-Coder-Next es mejor que Devstral Small para programar?

En mi benchmark, no: en el pilar Coding, Devstral Small saca 8.58 (#1) y Qwen3-Coder-Next 8.04 (#5), y Devstral cuesta menos de la mitad por llamada ($0.48 contra $1.23 por 1.000 llamadas). Qwen3-Coder-Next gana en lo que no esperas de un modelo de código: conversación multi-turno y soporte al cliente, donde es #1 del benchmark completo, y salida estructurada, donde es #2.

¿Cuánto cuesta usar Qwen3-Coder-Next?

Vía OpenRouter (FP8) cuesta $0.11 por millón de tokens de entrada y $0.80 de salida. Con mi supuesto de consumo (300 tokens de entrada, 1.500 de salida por llamada) son $1.23 por cada 1.000 llamadas — la salida cara pesa. Es más caro que Devstral Small ($0.48) o DeepSeek V4 Flash ($0.33), pero sigue siendo centavos comparado con un modelo premium ($39-78 la misma carga).

¿Qwen3-Coder-Next sirve para algo más que código?

Sí, y es el hallazgo más raro de mi medición: es el #1 de los 98 modelos en conversación multi-turno y en soporte al cliente, #2 en salida estructurada (JSON exacto) y #2 en creatividad. El entrenamiento agéntico sobre tareas de código parece haberle dado disciplina conversacional que la mayoría de los modelos generalistas no tiene. Para chatbots de soporte que devuelven datos estructurados es un candidato serio.