Kimi K2 de Moonshot AI: análisis honesto con benchmark propio [2026]

Medí 4 variantes de Kimi, los modelos de Moonshot AI que suenan fuerte en el mundo agéntico, contra los 98 modelos de mi benchmark. El resultado incomoda al hype: la mejor es la más vieja — Kimi K2, de julio de 2025, puesto #50 con 5.65 sobre 10 (v2.9, junio 2026) — y cada versión más nueva que medí queda peor, hasta el último lugar absoluto de la tabla. Acá van los números, el porqué, y la joya escondida que igual encontré en la familia.

Qué es Kimi K2

Kimi K2 es el modelo abierto insignia de Moonshot AI, el laboratorio chino detrás del chatbot Kimi. Ficha técnica verificable:

Mixture-of-Experts de 1 billón (trillion) de parámetros totales, 32B activos por token — de los abiertos más grandes que existen
Licencia Modified MIT: MIT con una cláusula extra de atribución que solo aplica a despliegues comerciales gigantes
Lanzado en julio de 2025, posicionado como modelo de “inteligencia agéntica”
La familia creció rápido: K2 Thinking, K2.5, K2.6 (abril de 2026, con contexto de 256K y orquestación de hasta 300 sub-agentes) y K2.7 Code, anunciado en junio de 2026 — este último aún no entra a mi benchmark

El pitch de Moonshot es agéntico y los titulares lo acompañan (“empata a GPT-5.5 en código”). Mi tabla cuenta otra historia, y el desglose por variante es la parte útil.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad

Lo que dice mi benchmark: la familia completa

Contexto rápido para que los números signifiquen algo. Mi benchmark corre hace meses: 98 modelos con cobertura real, más de 13.000 ejecuciones, todo en español y con tareas aplicadas — workflows de n8n, scripts, contenido, razonamiento, extracción de datos. El juez es Phi-4, un modelo de Microsoft corriendo local en mi infraestructura: no evalúo modelos de Microsoft, así que el que pone las notas no tiene equipo en la cancha. El score compuesto pesa 60% calidad, 20% costo, 10% velocidad y 10% latencia.

Las 4 variantes de Kimi que medí, en la versión 2.9 (junio 2026):

Variante	Score global	Calidad pura	Latencia	Costo/1.000 llamadas	Puesto
Kimi K2 (jul 2025)	5.65	7.76	20.6 s	$1.26	#50
Kimi K2.6 (abr 2026)	3.99	7.68	118 s	$5.45	#74
Kimi K2 Thinking	1.73	6.94	78 s	$3.93	#84
Kimi K2.5 (NIM)	0.00	6.27	90 s	$2.97	#89 — último

La progresión es exactamente la contraria a la que el marketing sugiere: mientras más nueva y más “razonadora” la variante, peor el resultado. La K2 original — sin thinking, la más barata, la de hace casi un año — gana en calidad pura, en latencia y en el compuesto. La K2.5 vía NIM cierra la tabla completa de 98 modelos.

¿Qué pasa? El impuesto del razonamiento. Las variantes thinking queman tiempo y tokens de salida “pensando” antes de responder, y en tareas aplicadas y acotadas — que son la mayoría del trabajo real de un negocio — ese gasto no se traduce en mejor respuesta. Es un patrón que mi benchmark detecta en varias familias, no solo en Kimi, pero en ninguna otra con esta claridad: cuatro variantes, una escalera descendente.

Lo digo con el matiz de método correspondiente: mis tareas son single-turn y en español. En flujos agénticos largos de cientos de pasos — el caso para el que Moonshot dice haber construido K2.6 — no tengo medición propia equivalente, y ahí sus números oficiales pueden tener razón. Lo que sí mido, lo mido igual para los 89.

La joya escondida: el contexto largo de K2.6

Dentro del naufragio del compuesto, K2.6 tiene un número que merece rescate: 9.71 en mi suite de retrieval de contexto largo — top 10 del benchmark completo, al nivel de modelos que cuestan mucho más, con 128K tokens usables verificados (declara 256K; la mitad superior no la verifiqué). Recuperó datos casi perfecto en cada profundidad que le probé dentro de esa ventana.

El problema es el paquete alrededor: leer fino no te sirve de mucho si cada respuesta tarda 2 minutos, cuesta caro y el modelo cede los secretos del contexto ante un prompt malicioso (2.92 en resistencia a prompt injection, de lo más bajo que he medido). Para lectura batch de documentos largos sin datos sensibles y sin apuro, K2.6 es defendible. Para todo lo demás, no.

El matiz honesto: dónde falla la familia

El compuesto castiga lo que Kimi es. Modelos enormes, lentos y con thinking por defecto rinden mal en un ranking que premia calidad por dólar y por segundo. Si tu criterio fuera solo “calidad bruta sin importar costo”, la familia sube — pero ni ahí brilla: 7.76 de la K2 base contra 8.34 de DeepSeek V4 Flash, que cuesta un cuarto.

Seguridad floja donde se midió. K2.6: 2.92 en prompt injection. La K2 base no tiene suite de seguridad corrida aún — no asumas que aprueba.

Español de salida con asterisco. Como varios modelos de origen chino de mi tabla, el desempeño en tareas de español aplicado (redacción, traducción) va por debajo de su calidad interna. Para output publicable sin revisión humana, riesgo material.

El tamaño no es feature. 1 billón de parámetros suena imponente y no aparece en ninguna celda buena de la tabla. Devstral Small tiene 24B — 40 veces menos — y le gana a toda la familia Kimi en casi todo; la única celda que los Kimi rescatan es el retrieval largo de K2.6.

Cuándo usarlo y cuándo no

Tiene sentido si:

Quieres específicamente la familia Kimi (por su ecosistema agéntico o sus claims de swarms) → usa la K2 base, no las thinking
Lectura batch de documentos largos sin apuro ni datos sensibles → K2.6 y su 9.71 de retrieval
Investigación sobre MoE gigantes con pesos abiertos

No lo uses si:

Buscas el mejor modelo barato para trabajo aplicado → Devstral Small (#1, $0.48) o DeepSeek V4 Flash (#3, $0.33) le ganan en todo a menos plata
Cualquier humano espera la respuesta en pantalla (21s la K2; 1-2 minutos las thinking)
El agente maneja credenciales (2.92 de K2.6 en prompt injection es descalificante)
Necesitas español publicable sin revisión

Cómo probarlo barato

OpenRouter — la vía que uso en el benchmark: K2 a $0.20/$0.80 por millón de tokens, $1.26 por cada 1.000 llamadas con mi supuesto de consumo. K2.6 sale 4 veces más caro ($0.73/$3.49) por peor resultado compuesto: elige la base.
NVIDIA NIM — tiene variantes Kimi en su tier gratis con límites; en mi medición fueron justo las peores de la familia (K2 Thinking y K2.5). Sirve para verificar mis números, no para producción.
Local — pesos abiertos en Hugging Face, pero 1 billón de parámetros = cluster. Para open source que corre en tu máquina, mira la guía de Gemma 4.

Kimi K2 vs Devstral Small

La mejor Kimi contra el #1 de mi ranking, con la misma vara:

	Kimi K2	Devstral Small
Score global compuesto	5.65 (#50)	8.28 (#1)
Calidad pura	7.76	8.03
Pilar Coding	7.49	8.58
Precisión de strings	8.08	9.06
Latencia promedio	20.6 s	6.1 s
Costo por 1.000 llamadas	$1.26	$0.48
Parámetros (totales/activos)	1T / 32B	24B densos

La lectura: no hay categoría de mi tabla donde la Kimi más grande justifique elegirla sobre el modelo 40 veces más chico. El tamaño del modelo es un dato de ingeniería, no una promesa de resultado. Si Moonshot revierte la tendencia con K2.7 Code — recién anunciado — lo sabré cuando lo mida, y este post se actualiza con el número, no con el comunicado.

Ver en el Benchmark: la familia Kimi aparece con sus scores actualizados en el ranking de mejores LLM open source, que se regenera con cada lote mensual. El análisis metodológico completo, con los 98 modelos, está en el post vivo del benchmark.

El ranking sigue vivo (y este post no)

Las cifras de arriba son de cuando lo escribí. El score de cada modelo es relativo a todos los demás, así que cada modelo nuevo que mido recalcula el de todos — incluidos los de este artículo. Si viniste a decidir hoy, mirá la fuente que se actualiza sola:

el ranking vivo de modelos open source
el ranking de modelos para agentes
La calculadora — ajustá los pesos a tu caso: si corrés de noche, la latencia no te importa y el ranking la penaliza igual.

Todo el código y los datos están abiertos en GitHub.

Preguntas frecuentes

¿Qué es Kimi K2?

Kimi K2 es un modelo open source de Moonshot AI, lanzado en julio de 2025 bajo licencia Modified MIT. Es un Mixture-of-Experts de 1 billón (trillion) de parámetros totales con 32B activos por token, posicionado como modelo agéntico. En mi benchmark de 98 modelos, la variante base K2 es la mejor de su familia: puesto #50 con 5.65 sobre 10 en el ranking compuesto (v2.9, junio 2026).

¿Qué versión de Kimi conviene usar?

Según mi medición, la K2 original: calidad 7.76, $1.26 por 1.000 llamadas y latencia de 21 segundos. Todas las variantes posteriores que medí puntúan peor en el compuesto — K2.6 queda #74, K2 Thinking #84 y K2.5 vía NIM #89, el último lugar de toda la tabla. Si aun así quieres la familia Kimi, la base vieja y barata le gana a las nuevas razonadoras en mis tareas.

¿Kimi K2.6 es malo?

No es malo: está mal posicionado para tareas normales. Su calidad pura (7.68) es decente y en retrieval de contexto largo saca 9.71 — top 10 de mi benchmark, mejor que muchos premium. Pero promedia casi 2 minutos de latencia por respuesta, cuesta $5.45 por 1.000 llamadas y saca 2.92 en resistencia a prompt injection. El paquete completo lo hunde al puesto #74 de 89.

¿Por qué las variantes thinking de Kimi puntúan peor?

Es un patrón que mi benchmark detecta más allá de Kimi: el razonamiento extendido cobra un impuesto de latencia y tokens de salida que en tareas acotadas no compra calidad equivalente. K2 Thinking saca 6.94 de calidad — por debajo del 7.76 de la K2 base, que no razona — y tarda 4 veces más. El thinking paga en problemas muy complejos; en trabajo aplicado del día a día, lo pagas tú.

¿Puedo correr Kimi K2 gratis o local?

Los pesos están en Hugging Face bajo Modified MIT (MIT con una cláusula de atribución para despliegues comerciales muy grandes), pero es 1 billón de parámetros: correrlo local exige un cluster, no está al alcance de hardware personal. La vía práctica es API: por OpenRouter cuesta $0.20 por millón de tokens de entrada y $0.80 de salida — unos $1.26 por cada 1.000 llamadas típicas.