DeepSeek V4 Flash: análisis con benchmark propio

DeepSeek V4 Flash es el #3 de mi benchmark de 98 modelos con 8.13 sobre 10 (v2.9, junio 2026) y el modelo con el contexto usable más grande que he medido: retrieval verificado hasta 800K tokens, donde la mayoría declara ventanas gigantes que no aguantan ni la mitad. Cuesta $0.33 por cada 1.000 llamadas. Acá va el análisis completo: qué es, qué números saca, dónde falla — porque falla, y feo, en una suite específica — y cómo usarlo pagando poco o nada.

Qué es DeepSeek V4 Flash

DeepSeek V4 Flash es la variante eficiente de la familia V4 de DeepSeek, lanzada el 24 de abril de 2026. Ficha técnica verificable:

Arquitectura Mixture-of-Experts: 284B parámetros totales, 13B activos por llamada — paga el costo de cómputo de un modelo chico con el conocimiento de uno grande
Licencia MIT — open source sin restricciones comerciales, pesos en Hugging Face
Ventana de contexto declarada de 1M tokens (lo que verifiqué de eso, más abajo)
Modo de razonamiento (thinking) incorporado
$0.098 / $0.197 por millón de tokens vía OpenRouter — precio que re-verifiqué contra su API el 1 de junio de 2026

Mixture-of-Experts, en una línea: el modelo tiene muchos “expertos” internos y para cada token activa solo unos pocos. Por eso un modelo de 284B puede cobrarte como uno de 13B.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad

Lo que dice mi benchmark

Contexto rápido para que los números signifiquen algo. Mi benchmark corre hace meses: 98 modelos con cobertura real, más de 13.000 ejecuciones, todo en español y con tareas aplicadas — workflows de n8n, scripts, contenido, razonamiento, extracción de datos. El juez es Phi-4, un modelo de Microsoft corriendo local en mi infraestructura: no evalúo modelos de Microsoft, así que el que pone las notas no tiene equipo en la cancha. El score compuesto pesa 60% calidad, 20% costo, 10% velocidad y 10% latencia.

Los números de DeepSeek V4 Flash en la versión 2.9 (junio 2026), medidos vía OpenRouter con 133 ejecuciones más 219 corridas de contexto largo:

Métrica	DeepSeek V4 Flash	Posición
Score global	8.13	#3 de 89
Calidad pura	8.34	la más alta del top 5 del ranking
Pilar Contenido	8.09	#5
Pilar Razonamiento	7.99	#4
Pilar Coding	7.98	#8
Pilar Agentes	7.18	#19
Contexto usable verificado	800K tokens	#1 del benchmark (empatado)
Costo por 1.000 llamadas	$0.33	más barato que el #1 del ranking

Por delante solo tiene a Devstral Small (8.28) y Llama 4 Scout (8.22). El podio completo es open source.

Hay una historia detrás de ese #3 que vale la pena contar: en versiones anteriores del benchmark este modelo aparecía en el puesto #63. No porque fuera malo — porque mi medición estaba mal diseñada. Las pruebas de contexto largo estaban mezcladas en el score general y pesaban distinto entre modelos, distorsionando el ranking. Cuando separé el contexto largo como dimensión propia (v2.8), DeepSeek V4 Flash saltó 60 puestos. La lección de siempre: antes de creerle al número, revisa cómo lo mediste.

El contexto largo: el dato que justifica el post

Mi suite de retrieval en español le esconde datos a distintas profundidades de contexto y mide si el modelo los recupera. DeepSeek V4 Flash pasó la prueba en cada tamaño que le puse: 8K, 64K, 128K, 256K, 512K y 800K tokens. Es el contexto usable más grande que he verificado, empatado con Gemini 2.5 Flash Lite y Llama 4 Maverick — pero de los tres, es el único que además está en el top 5 de calidad general.

Para dimensionar 800K tokens: un codebase mediano completo, o cientos de páginas de documentos, en una sola llamada. Y el matiz que el marketing no te va a dar: declara 1M, yo verifiqué 800K. MiniMax M3, por comparar, declara 1M y en mis pruebas da error pasados los 512K usables. “Declarado” y “usable” son dos números distintos en casi todos los modelos; por eso los mido.

La contracara honesta: pasar la prueba de la aguja no es lo mismo que leer fino. Su calidad promedio en las tareas de contexto largo es 6.98 — correcta, lejos de los mejores lectores (los Claude por suscripción y Gemini 2.5 Flash Lite rondan 9.8-10 en esa métrica dentro de sus ventanas). La síntesis: Flash llega más lejos que casi cualquiera, pero dentro de ventanas chicas hay modelos que leen mejor.

El matiz honesto: dónde falla

Seguridad: su peor número, y es grave según tu caso. En mi suite de resistencia a prompt injection en español saca 3.66, con un score de seguridad agregado de 2.06 — de los más bajos del benchmark. Traducción: si un texto malicioso dentro del contexto le pide que revele el secreto que le confiaste, cede con facilidad. Para generar contenido o analizar documentos, irrelevante. Para un agente con acceso a credenciales, descalificante sin una capa extra de protección.

Latencia alta. Promedia 27.6 segundos por llamada en OpenRouter, en parte por el modo thinking. El throughput está bien (69 tokens/s), pero para chat en vivo no sirve.

Tool calling débil. 5.87 en la suite de llamadas a herramientas, y su pilar Agentes (7.18, #19) es el único fuera del top 10. Para orquestar muchas tools encadenadas hay opciones mejores.

El proveedor importa más de lo normal. Mismo modelo, tres comportamientos: por OpenRouter rinde lo que ves arriba; por NVIDIA NIM gratis la calidad es comparable pero el contexto efectivo se recorta (~128K) y hay cap de requests; por Ollama Cloud la cuantización agresiva le degrada la calidad varios puntos. Si lo pruebas y te parece peor de lo que digo, revisa primero por dónde lo estás llamando.

Cuándo usarlo y cuándo no

Úsalo si tu caso es:

Analizar mucho texto de una vez: codebases, contratos, transcripciones largas, históricos — su terreno natural y casi sin competencia barata
Contenido y razonamiento de volumen donde quieres calidad de top 5 a $0.33 por 1.000 llamadas
Agentes que acumulan contexto durante horas sin re-resumir a cada rato

No lo uses si:

Tu agente maneja credenciales o datos sensibles con input de terceros (3.66 en prompt injection)
Necesitas respuesta rápida de cara al usuario (27.6s de latencia promedio)
Tu tarea es código acotado dentro de 128K — ahí Devstral Small es mejor y el contexto extra no te aporta
Dependes de tool calling intensivo

Cómo usarlo barato (o gratis)

OpenRouter — la vía que uso en el benchmark: $0.098/$0.197 por millón de tokens. Con mi supuesto de consumo (300 de entrada, 1.500 de salida por llamada), $0.33 por cada 1.000 llamadas. La misma carga en un premium por API cuesta $39-78.
NVIDIA NIM gratis — sirve para probarlo sin tarjeta, con dos peros medidos: cap de ~40 requests por minuto y contexto efectivo recortado. Para validar calidad alcanza; para el caso de uso de 800K, no.
Local — los pesos son MIT y están públicos, pero son 284B parámetros: fuera del alcance de una GPU de escritorio. Si quieres modelos que corren en tu máquina, eso lo cubrí en la guía de Gemma 4.

DeepSeek V4 Flash vs Devstral Small

La comparación natural: el #3 contra el #1, los dos open source, los dos baratos, con mis números y la misma vara:

	DeepSeek V4 Flash	Devstral Small
Score global compuesto	8.13 (#3)	8.28 (#1)
Calidad pura	8.34	8.03
Pilar Coding	7.98	8.58
Contexto usable verificado	800K	128K
Resistencia a prompt injection	3.66	no medida aún
Costo por 1.000 llamadas	$0.33	$0.48
Licencia	MIT	Apache 2.0

La lectura: no compiten, se reparten el trabajo. Devstral gana en código y en el compuesto; Flash tiene mejor calidad bruta, cuesta menos y multiplica por seis el contexto utilizable. Mi regla práctica: la tarea cabe en 128K → Devstral; la tarea es leer mucho de una vez → Flash. Tener los dos configurados cuesta menos que una suscripción de café al mes.

Ver en el Benchmark: DeepSeek V4 Flash aparece con su score actualizado en el ranking de mejores LLM open source, que se regenera con cada lote mensual. El análisis metodológico completo, con los 98 modelos, está en el post vivo del benchmark.

El ranking sigue vivo (y este post no)

Las cifras de arriba son de cuando lo escribí. El score de cada modelo es relativo a todos los demás, así que cada modelo nuevo que mido recalcula el de todos — incluidos los de este artículo. Si viniste a decidir hoy, mirá la fuente que se actualiza sola:

las alternativas a ChatGPT, medidas
el ranking de los más baratos que aún rinden
La calculadora — ajustá los pesos a tu caso: si corrés de noche, la latencia no te importa y el ranking la penaliza igual.

Todo el código y los datos están abiertos en GitHub.

Preguntas frecuentes

¿Qué es DeepSeek V4 Flash?

DeepSeek V4 Flash es un modelo open source de DeepSeek lanzado el 24 de abril de 2026, con arquitectura Mixture-of-Experts: 284B parámetros totales de los que activa solo 13B por llamada. Tiene licencia MIT sin restricciones comerciales y declara ventana de contexto de 1 millón de tokens. En mi benchmark de 98 modelos es el #3 del ranking compuesto (8.13 en v2.9, junio 2026).

¿Cuánto contexto soporta DeepSeek V4 Flash en la práctica?

Declara 1 millón de tokens. En mi suite de retrieval en español pasó las pruebas en todos los tamaños hasta 800K tokens — el contexto usable más grande que he verificado en el benchmark, empatado con Gemini 2.5 Flash Lite y Llama 4 Maverick. El matiz: su calidad promedio en tareas de contexto largo es 6.98, correcta pero no líder. Llega más lejos que casi todos; no es el que lee más fino.

¿DeepSeek V4 Flash es gratis?

Los pesos están en Hugging Face bajo licencia MIT, pero correr 284B parámetros local no es realista para la mayoría. Las vías prácticas: NVIDIA NIM lo ofrece gratis con límites (unos 40 requests por minuto y contexto efectivo recortado), y por OpenRouter cuesta $0.098 por millón de tokens de entrada y $0.197 de salida — unos $0.33 por cada 1.000 llamadas típicas.

¿DeepSeek V4 Flash es seguro para agentes que manejan credenciales?

No, y es su peor número: en mi suite de seguridad saca 2.06 sobre 10, con 3.66 en resistencia a prompt injection en español. Ante un intento de extraerle secretos del contexto, cede con facilidad. Para agentes que tocan credenciales o datos sensibles conviene poner un modelo más resistente en esa capa, o aislar los secretos fuera del contexto del modelo.

¿DeepSeek V4 Flash o Devstral Small?

Depende del tamaño de tu tarea. Devstral Small es el #1 de mi ranking compuesto y el mejor en código, pero su techo son 128K tokens de contexto. DeepSeek V4 Flash tiene mejor calidad pura (8.34 contra 8.03), cuesta menos por llamada ($0.33 contra $0.48) y llega a 800K usables. Si tu trabajo cabe en 128K, Devstral; si necesitas leer mucho de una vez, Flash.