Devstral Small: código bueno por $0.48 cada 1.000 llamadas [2026]

⚠️ Actualización (julio 2026): este modelo fue retirado. El endpoint de API de Devstral Small ya no existe — Mistral dejó de servirlo y llamarlo devuelve error. Lo que sigue queda como registro histórico de lo que midió cuando estaba vivo, y como la mejor lección que me dejó el benchmark: hasta el #1 de un ranking puede desaparecer de un día para otro. Por eso el ranking se regenera solo y los modelos retirados salen de las recomendaciones automáticamente. Los pesos siguen publicados en Hugging Face (Apache 2.0), así que correrlo local sigue siendo posible — pero si viniste a elegir un modelo para usar HOY, mirá el benchmark actualizado: ahí están los que sí puedes llamar, con los números de hoy.

El modelo #1 de mi benchmark no es de Anthropic, ni de OpenAI, ni de Google. Es Devstral Small, un modelo open source de Mistral de 24B parámetros que cuesta $0.10 por millón de tokens de entrada — unos $0.48 por cada 1.000 llamadas. Saca 8.28 sobre 10 en el ranking compuesto (v2.9, junio 2026), medido sobre 98 modelos y con 169 ejecuciones, la mayor cobertura de todo el benchmark. Y casi nadie habla de él.

Acá va el análisis completo: qué es, qué números saca, dónde falla (porque falla) y cómo usarlo pagando poco o nada.

Qué es Devstral Small

Devstral Small es un modelo de Mistral AI construido en conjunto con All Hands AI, los creadores del agente de código OpenHands. La versión que lidera mi benchmark es la 1.1 (identificador Devstral-Small-2507), liberada el 10 de julio de 2025. Ficha técnica verificable:

🧠 ¿No sabes qué modelo de IA usar?

Intro a LLMs te da el criterio para elegir modelo por costo y caso de uso — y cierra con un test A/B real de 5 modelos en OpenRouter.

Ver el curso

24B parámetros, afinado sobre Mistral Small 3.1
Licencia Apache 2.0 — open source de verdad, sin restricciones comerciales
Ventana de contexto de 128K tokens (anota este dato, vuelve más abajo)
Diseñado para agentes de ingeniería de software: explorar codebases, editar múltiples archivos
Al salir marcó 53.6% en SWE-bench Verified, el mejor modelo abierto de ese momento
Cuantizado a 4-bit pesa ~13 GB: corre en una RTX 4090 o un Mac de 32 GB

Mistral ya sacó sucesores: Devstral 2 salió en diciembre de 2025, más grande y más caro. En mi benchmark, el viejo le gana al nuevo: Devstral 2 saca 6.66 contra el 8.28 del Small, cobrando 6.5 veces más por llamada. El modelo chico de julio de 2025 sigue arriba de toda la familia que vino después. Si necesitabas una razón para no creerle a los anuncios de prensa y medir por tu cuenta, es esta.

Lo que dice mi benchmark

Contexto rápido para que los números signifiquen algo. Mi benchmark corre hace meses: 98 modelos con cobertura real, más de 13.000 ejecuciones, todo en español y con tareas aplicadas — generar workflows de n8n, scripts, contenido, razonamiento, extracción de datos. El juez que puntúa es Phi-4, un modelo de Microsoft corriendo local en mi infraestructura; lo elegí porque no evalúo modelos de Microsoft, así que el que pone las notas no tiene equipo en la cancha. El score compuesto pesa 60% calidad, 20% costo, 10% velocidad y 10% latencia.

Los números de Devstral Small en la versión 2.9 (junio 2026):

Métrica	Devstral Small	Posición
Score global	8.28	#1 de 89
Pilar Coding	8.58	#1
Pilar Razonamiento	8.37	#2
Pilar Contenido	8.08	#7
Pilar Agentes	7.81	#2
Precisión de strings	9.06	#1
Velocidad	169 tokens/s	—
Costo por 1.000 llamadas	$0.48	tier ultra-barato

Detrás vienen Llama 4 Scout (8.22) y DeepSeek V4 Flash (8.13). El podio completo es open source.

Dos números de esa tabla merecen una pausa. El 8.58 en Coding es el mejor del benchmark completo: por encima de los modelos premium en generación de código aplicado en español. Y el 9.06 en precisión de strings mide algo aburrido pero crítico: copiar y escribir cadenas exactas — configs, credenciales, JSON — sin cambiar un carácter. Ningún modelo logra el 10 en esa suite; Devstral es el que menos se equivoca. Si haces ETL, extracción de datos o generación de archivos de configuración, ese número vale más que cualquier demo.

Ojo con un detalle: en calidad pura, sin pesar costo ni velocidad, Devstral saca 8.03 — por debajo de Claude Opus 4.8 (8.39 por API). El compuesto lo corona porque entrega ~95% de la calidad de un premium a ~1% del precio. Eso es exactamente lo que el ranking está diseñado para detectar.

El matiz honesto: dónde falla

Si solo te llevas el “#1” te estaría vendiendo humo. Devstral Small tiene tres límites concretos:

La ventana de 128K tokens. Es el techo real del modelo, y no es negociable: no soporta 256K. Dentro de esa ventana su retrieval en español es sólido (7.47 en mi suite de contexto largo — correcto, no líder); fuera de ella, el trabajo simplemente no entra. Si tu caso es analizar un codebase gigante o un agente que acumula contexto durante horas, el “#1 práctico” según mi misma data es DeepSeek V4 Flash: #3 del ranking, la calidad más alta del top abierto (8.34) y 800K de contexto usable verificado, por $0.33 por 1.000 llamadas.

Tool calling mediocre. En la suite de llamadas a herramientas saca 6.76 — bastante por debajo de su promedio. Para un agente que orquesta muchas tools encadenadas, hay opciones mejores aunque pierdan en lo demás.

Latencia inicial. Promedia ~6 segundos por llamada en OpenRouter. El throughput es alto (169 tokens/s una vez que arranca), pero si tu caso necesita respuesta instantánea — un chat de cara al usuario — se siente.

Y el matiz de fondo que aplica a todo el benchmark: mido tareas acotadas en español, no debugging agéntico de horas sobre repos reales. En ese terreno (SWE-bench Verified con tareas largas) los modelos premium siguen justificando su precio, como conté cuando puse a Fable 5 contra Opus 4.8. El ranking es un mapa, no una respuesta única.

Cuándo usarlo y cuándo no

Úsalo si tu caso es:

Generación de código acotada: workflows de n8n, plugins, scripts, funciones — su terreno natural
Extracción de datos, ETL, salida estructurada donde un carácter cambiado rompe todo
Traducción (8.76 en mi suite) y contenido en español con volumen alto
Cualquier tarea repetitiva donde hoy pagas precio premium por algo que no lo necesita

No lo uses si:

Tu contexto supera los 128K tokens (→ DeepSeek V4 Flash)
Tu agente depende de tool calling intensivo
Necesitas latencia de chat en vivo
El trabajo es debugging agéntico largo y crítico — ahí el premium se paga solo

Cómo usarlo barato (o gratis)

Tres vías, de menor a mayor fricción:

OpenRouter de pago — la vía que uso en el benchmark: $0.10/$0.30 por millón de tokens, sin cap de requests. Con mi supuesto de consumo (300 tokens de entrada, 1.500 de salida por llamada), son $0.48 por cada 1.000 llamadas. Para dimensionarlo: la misma carga en Claude Opus 4.8 por API cuesta $39 — 81 veces más.
OpenRouter gratis — existe la variante devstral-small:free para probar sin tarjeta. Con límites de uso, pero suficiente para validar si te sirve antes de pagar.
Local — los pesos están en Hugging Face y corre en Ollama o LM Studio. Necesitas una RTX 4090 o un Mac de 32 GB; si tu hardware no llega, los modelos que sí corren en una laptop común los cubrí en la guía de Gemma 4.

Si el plan es ponerlo a trabajar dentro de un coding agent en vez de pagar suscripción premium, ese setup completo lo expliqué en cómo usar Claude Code sin pagar $200 al mes — la lógica es la misma, cambia el modelo que conectas.

Devstral Small vs Claude Opus 4.8

La comparación que probablemente viniste a buscar, con mis números y la misma vara:

	Devstral Small	Claude Opus 4.8 (API)
Score global compuesto	8.28 (#1)	6.46
Coding (single-turn, español)	8.58	6.92
Calidad pura	8.03	8.39
Costo por 1.000 llamadas	$0.48	$39.00
Contexto	128K	200K
Licencia	Apache 2.0	propietaria

La lectura: Opus sigue siendo mejor modelo en calidad bruta y en trabajo agéntico largo. Pero para el grueso de las tareas que un negocio automatiza de verdad — generar código acotado, extraer datos, producir contenido — Devstral entrega más por 81 veces menos plata. La pregunta no es cuál es “mejor”: es cuánto de tu carga real necesita lo que solo el premium da.

Ver en el Benchmark: Devstral Small aparece con su score actualizado en el ranking de mejores LLM baratos, que se regenera con cada lote mensual. El análisis metodológico completo, con los 98 modelos, está en el post vivo del benchmark.

El ranking sigue vivo (y este post no)

Las cifras de arriba son de cuando lo escribí. El score de cada modelo es relativo a todos los demás, así que cada modelo nuevo que mido recalcula el de todos — incluidos los de este artículo. Si viniste a decidir hoy, mirá la fuente que se actualiza sola:

el ranking vivo de modelos para programar
los modelos más baratos que aún rinden
La calculadora — ajustá los pesos a tu caso: si corrés de noche, la latencia no te importa y el ranking la penaliza igual.

Todo el código y los datos están abiertos en GitHub.

Preguntas frecuentes

¿Qué es Devstral Small?

Devstral Small es un modelo de IA open source de 24B parámetros creado por Mistral AI junto a All Hands AI, especializado en tareas de ingeniería de software. Está afinado sobre Mistral Small 3.1, tiene ventana de contexto de 128K tokens y licencia Apache 2.0, sin restricciones comerciales. Llegó a ser #1 del ranking compuesto de mi benchmark (v2.9, junio 2026) — hasta que su endpoint de API fue retirado en julio de 2026. Hoy solo se puede usar descargando los pesos.

¿Devstral Small es gratis?

Los pesos son open source bajo Apache 2.0: puedes descargarlos de Hugging Face y correrlo gratis en tu hardware con Ollama o LM Studio. Por API ya no está disponible: el endpoint fue retirado en julio de 2026 (devuelve error). La única vía hoy es descargar los pesos de Hugging Face y correrlo en tu propio hardware.

¿Qué computador necesito para correr Devstral Small local?

Es un modelo de 24B parámetros: cuantizado a 4-bit pesa unos 13-14 GB, así que necesitas una GPU tipo RTX 4090 o un Mac con 32 GB de memoria unificada. Si tu hardware no alcanza, la vía barata es OpenRouter o la API de Mistral; para modelos que corren en una laptop común, mira Gemma 4.

¿Por qué Devstral Small supera a Devstral 2, que es más nuevo?

En mi benchmark, Devstral Small saca 8.28 y Devstral 2 (diciembre 2025) saca 6.66, costando 6.5 veces más. El modelo nuevo es más grande, pero en calidad medida quedó marginalmente peor y mucho peor en costo-eficiencia. Es el mejor recordatorio de que "más nuevo" y "más grande" no garantizan nada: hay que medir.

¿Devstral Small funciona bien en español?

Sí, y eso es parte de lo que lo diferencia: todo mi benchmark corre en español. Dentro de su ventana de 128K su retrieval en español es sólido (7.47 en mi suite de contexto largo) y en traducción saca 8.76. El límite no es el idioma, es el tamaño del contexto: si tu tarea no cabe en 128K tokens, necesitas otro modelo.