en este artículo
El modelo #1 de mi benchmark no es de Anthropic, ni de OpenAI, ni de Google. Es Devstral Small, un modelo open source de Mistral de 24B parámetros que cuesta $0.10 por millón de tokens de entrada — unos $0.48 por cada 1.000 llamadas. Saca 8.28 sobre 10 en el ranking compuesto (v2.9, junio 2026), medido sobre 89 modelos y con 169 ejecuciones, la mayor cobertura de todo el benchmark. Y casi nadie habla de él.
Acá va el análisis completo: qué es, qué números saca, dónde falla (porque falla) y cómo usarlo pagando poco o nada.
Qué es Devstral Small
Devstral Small es un modelo de Mistral AI construido en conjunto con All Hands AI, los creadores del agente de código OpenHands. La versión que lidera mi benchmark es la 1.1 (identificador Devstral-Small-2507), liberada el 10 de julio de 2025. Ficha técnica verificable:
🚀 ¿Te interesa la tecnología que realmente importa?
En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.
Entrar a la comunidad- 24B parámetros, afinado sobre Mistral Small 3.1
- Licencia Apache 2.0 — open source de verdad, sin restricciones comerciales
- Ventana de contexto de 128K tokens (anota este dato, vuelve más abajo)
- Diseñado para agentes de ingeniería de software: explorar codebases, editar múltiples archivos
- Al salir marcó 53.6% en SWE-bench Verified, el mejor modelo abierto de ese momento
- Cuantizado a 4-bit pesa ~13 GB: corre en una RTX 4090 o un Mac de 32 GB
Mistral ya sacó sucesores: Devstral 2 salió en diciembre de 2025, más grande y más caro. En mi benchmark, el viejo le gana al nuevo: Devstral 2 saca 6.66 contra el 8.28 del Small, cobrando 6.5 veces más por llamada. El modelo chico de julio de 2025 sigue arriba de toda la familia que vino después. Si necesitabas una razón para no creerle a los anuncios de prensa y medir por tu cuenta, es esta.
Lo que dice mi benchmark
Contexto rápido para que los números signifiquen algo. Mi benchmark corre hace meses: 89 modelos con cobertura real, más de 13.000 ejecuciones, todo en español y con tareas aplicadas — generar workflows de n8n, scripts, contenido, razonamiento, extracción de datos. El juez que puntúa es Phi-4, un modelo de Microsoft corriendo local en mi infraestructura; lo elegí porque no evalúo modelos de Microsoft, así que el que pone las notas no tiene equipo en la cancha. El score compuesto pesa 60% calidad, 20% costo, 10% velocidad y 10% latencia.
Los números de Devstral Small en la versión 2.9 (junio 2026):
| Métrica | Devstral Small | Posición |
|---|---|---|
| Score global | 8.28 | #1 de 89 |
| Pilar Coding | 8.58 | #1 |
| Pilar Razonamiento | 8.37 | #2 |
| Pilar Contenido | 8.08 | #7 |
| Pilar Agentes | 7.81 | #2 |
| Precisión de strings | 9.06 | #1 |
| Velocidad | 169 tokens/s | — |
| Costo por 1.000 llamadas | $0.48 | tier ultra-barato |
Detrás vienen Llama 4 Scout (8.22) y DeepSeek V4 Flash (8.13). El podio completo es open source.
Dos números de esa tabla merecen una pausa. El 8.58 en Coding es el mejor del benchmark completo: por encima de los modelos premium en generación de código aplicado en español. Y el 9.06 en precisión de strings mide algo aburrido pero crítico: copiar y escribir cadenas exactas — configs, credenciales, JSON — sin cambiar un carácter. Ningún modelo logra el 10 en esa suite; Devstral es el que menos se equivoca. Si haces ETL, extracción de datos o generación de archivos de configuración, ese número vale más que cualquier demo.
Ojo con un detalle: en calidad pura, sin pesar costo ni velocidad, Devstral saca 8.03 — por debajo de Claude Opus 4.8 (8.39 por API). El compuesto lo corona porque entrega ~95% de la calidad de un premium a ~1% del precio. Eso es exactamente lo que el ranking está diseñado para detectar.
El matiz honesto: dónde falla
Si solo te llevas el “#1” te estaría vendiendo humo. Devstral Small tiene tres límites concretos:
La ventana de 128K tokens. Es el techo real del modelo, y no es negociable: no soporta 256K. Dentro de esa ventana su retrieval en español es sólido (7.47 en mi suite de contexto largo — correcto, no líder); fuera de ella, el trabajo simplemente no entra. Si tu caso es analizar un codebase gigante o un agente que acumula contexto durante horas, el “#1 práctico” según mi misma data es DeepSeek V4 Flash: #3 del ranking, la calidad más alta del top abierto (8.34) y 800K de contexto usable verificado, por $0.33 por 1.000 llamadas.
Tool calling mediocre. En la suite de llamadas a herramientas saca 6.76 — bastante por debajo de su promedio. Para un agente que orquesta muchas tools encadenadas, hay opciones mejores aunque pierdan en lo demás.
Latencia inicial. Promedia ~6 segundos por llamada en OpenRouter. El throughput es alto (169 tokens/s una vez que arranca), pero si tu caso necesita respuesta instantánea — un chat de cara al usuario — se siente.
Y el matiz de fondo que aplica a todo el benchmark: mido tareas acotadas en español, no debugging agéntico de horas sobre repos reales. En ese terreno (SWE-bench Verified con tareas largas) los modelos premium siguen justificando su precio, como conté cuando puse a Fable 5 contra Opus 4.8. El ranking es un mapa, no una respuesta única.
Cuándo usarlo y cuándo no
Úsalo si tu caso es:
- Generación de código acotada: workflows de n8n, plugins, scripts, funciones — su terreno natural
- Extracción de datos, ETL, salida estructurada donde un carácter cambiado rompe todo
- Traducción (8.76 en mi suite) y contenido en español con volumen alto
- Cualquier tarea repetitiva donde hoy pagas precio premium por algo que no lo necesita
No lo uses si:
- Tu contexto supera los 128K tokens (→ DeepSeek V4 Flash)
- Tu agente depende de tool calling intensivo
- Necesitas latencia de chat en vivo
- El trabajo es debugging agéntico largo y crítico — ahí el premium se paga solo
Cómo usarlo barato (o gratis)
Tres vías, de menor a mayor fricción:
- OpenRouter de pago — la vía que uso en el benchmark: $0.10/$0.30 por millón de tokens, sin cap de requests. Con mi supuesto de consumo (300 tokens de entrada, 1.500 de salida por llamada), son $0.48 por cada 1.000 llamadas. Para dimensionarlo: la misma carga en Claude Opus 4.8 por API cuesta $39 — 81 veces más.
- OpenRouter gratis — existe la variante
devstral-small:freepara probar sin tarjeta. Con límites de uso, pero suficiente para validar si te sirve antes de pagar. - Local — los pesos están en Hugging Face y corre en Ollama o LM Studio. Necesitas una RTX 4090 o un Mac de 32 GB; si tu hardware no llega, los modelos que sí corren en una laptop común los cubrí en la guía de Gemma 4.
Si el plan es ponerlo a trabajar dentro de un coding agent en vez de pagar suscripción premium, ese setup completo lo expliqué en cómo usar Claude Code sin pagar $200 al mes — la lógica es la misma, cambia el modelo que conectas.
Devstral Small vs Claude Opus 4.8
La comparación que probablemente viniste a buscar, con mis números y la misma vara:
| Devstral Small | Claude Opus 4.8 (API) | |
|---|---|---|
| Score global compuesto | 8.28 (#1) | 6.46 |
| Coding (single-turn, español) | 8.58 | 6.92 |
| Calidad pura | 8.03 | 8.39 |
| Costo por 1.000 llamadas | $0.48 | $39.00 |
| Contexto | 128K | 200K |
| Licencia | Apache 2.0 | propietaria |
La lectura: Opus sigue siendo mejor modelo en calidad bruta y en trabajo agéntico largo. Pero para el grueso de las tareas que un negocio automatiza de verdad — generar código acotado, extraer datos, producir contenido — Devstral entrega más por 81 veces menos plata. La pregunta no es cuál es “mejor”: es cuánto de tu carga real necesita lo que solo el premium da.
Ver en el Benchmark: Devstral Small aparece con su score actualizado en el ranking de mejores LLM baratos, que se regenera con cada lote mensual. El análisis metodológico completo, con los 89 modelos, está en el post vivo del benchmark.
Preguntas frecuentes
¿Qué es Devstral Small?
Devstral Small es un modelo de IA open source de 24B parámetros creado por Mistral AI junto a All Hands AI, especializado en tareas de ingeniería de software. Está afinado sobre Mistral Small 3.1, tiene ventana de contexto de 128K tokens y licencia Apache 2.0, sin restricciones comerciales. En mi benchmark de 89 modelos es el #1 del ranking compuesto (v2.9, junio 2026).
¿Devstral Small es gratis?
Los pesos son open source bajo Apache 2.0: puedes descargarlos de Hugging Face y correrlo gratis en tu hardware con Ollama o LM Studio. Por API, OpenRouter tiene una variante gratuita para probar y la versión de pago cuesta $0.10 por millón de tokens de entrada y $0.30 de salida — unos $0.48 por cada 1.000 llamadas típicas.
¿Qué computador necesito para correr Devstral Small local?
Es un modelo de 24B parámetros: cuantizado a 4-bit pesa unos 13-14 GB, así que necesitas una GPU tipo RTX 4090 o un Mac con 32 GB de memoria unificada. Si tu hardware no alcanza, la vía barata es OpenRouter o la API de Mistral; para modelos que corren en una laptop común, mira Gemma 4.
¿Por qué Devstral Small supera a Devstral 2, que es más nuevo?
En mi benchmark, Devstral Small saca 8.28 y Devstral 2 (diciembre 2025) saca 6.66, costando 6.5 veces más. El modelo nuevo es más grande, pero en calidad medida quedó marginalmente peor y mucho peor en costo-eficiencia. Es el mejor recordatorio de que "más nuevo" y "más grande" no garantizan nada: hay que medir.
¿Devstral Small funciona bien en español?
Sí, y eso es parte de lo que lo diferencia: todo mi benchmark corre en español. Dentro de su ventana de 128K su retrieval en español es sólido (7.47 en mi suite de contexto largo) y en traducción saca 8.76. El límite no es el idioma, es el tamaño del contexto: si tu tarea no cabe en 128K tokens, necesitas otro modelo.
🚀 ¿Te interesa la tecnología que realmente importa?
En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.
Entrar a la comunidad