Hace unos días me encontré con un problema que me tiene harto. Llevo meses usando Claude Code, pero nunca me alcanzó. Partí con la suscripción Max de $100 al mes, luego salté a la de $200 — la más cara que existe — y ni así. O se me acaba la cuota a mitad de mes, o los servidores de Anthropic están caídos, o noto que las respuestas cada vez son más genéricas. Como si al saturarse la plataforma, el modelo se estuviera volviendo más tonto.
Y ahí me di cuenta de algo: estoy pagando $200 al mes (la suscripción más cara que existe) por un servicio que me falla más de lo que funciona.
Por eso empecé a buscar alternativas. Y lo que encontré me cambió la forma en que trabajo con IA.
🚀 ¿Te interesa la tecnología que realmente importa?
En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.
👥 Entrar a la comunidadPero acá viene la parte que casi nadie sabe: Claude Code no es un modelo. Es una interfaz. Y esa interfaz se puede conectar a casi cualquier proveedor de LLM que exista.
No te estoy hablando de hackear nada ni de hacer algo ilegal. Te estoy hablando de una funcionalidad que el propio Claude Code soporta: cambiar el ANTHROPIC_BASE_URL para apuntar a otro proveedor con endpoint compatible. Y cuando hice eso, descubrí algo que me voló la cabeza.
Lo que nadie te dice sobre Claude Code
Claude Code es una CLI (command-line interface). Envía requests a una API que sigue el formato de Anthropic. Pero ese formato no es exclusivo de Anthropic.
Proveedores como Z.ai (GLM), Xiaomi (MiMo), Moonshot (Kimi), DeepSeek, y muchos otros exponen endpoints que son Anthropic-compatibles. Claude Code envía un request, el proveedor responde, y todo funciona como si nada hubiera cambiado.
En la práctica: clonas una carpeta de configuración, pegas tu API key, y claude arranca usando un modelo que cuesta $6/mes en vez de $200.
¿Suena demasiado bueno? Yo también lo pensé. Por eso hice dos cosas:
- Monté un repositorio con workspaces listos — 20+ proveedores configurados, cada uno con su
settings.json, instrucciones y troubleshooting. MIT license, úsalo como quieras. - Corrí 7,725 benchmarks con 68 modelos — 91 tests por modelo, 23 suites de evaluación, juez Phi-4 local (Microsoft, 14B, sin conflicto de interés). No tomé la palabra del marketing de ninguno. Medí.
Los resultados me sorprendieron. Y creo que a ti también te van a sorprender.
El dato que incomoda: los modelos más caros son los peores
Antes de pasar a la configuración, necesito que veas algo. Porque sino vas a pensar que te estoy vendiendo humo.
Corrí 68 modelos a través de 91 tests cada uno — razonamiento, coding, generación de contenido, tool calling, agentes, traducción, y más. El juez fue Phi-4 de Microsoft corriendo local en Ollama. Cero sesgo comercial.
La correlación entre precio y calidad fue ρ = −0.460 (p = 0.001). Negativa. O sea: los modelos más caros tienden a rendir peor en tests single-turn.
Y en contenido, la correlación es ρ = −0.603 (p < 0.001). Fuerte. El modelo más caro del benchmark, GPT-5.5 a $46.50/1k calls, sacó un score de 6.44. Mientras tanto, Llama 3.1 8B en Groq a $0.14/1k calls sacó 7.66.
55× más barato, 19% mejor.
Esto no es opinión. Es la data que cualquiera puede replicar si clona el benchmark.
¿Por qué pasa esto?
Porque los modelos premium suelen ser «thinking models» — consumen tokens de razonamiento interno antes de responder. En un test single-turn corto, ese razonamiento extra no mejora el resultado pero sí dispara el costo. Kimi K2.6 facturaba ~3,500 tokens de output cuando el texto visible era solo ~700. Un multiplicador de 5× en costo por la misma respuesta.
Además, los modelos económicos modernos (Llama, GPT-OSS, Gemma 4) están tan bien afinados que para la inmensa mayoría de tareas de coding y contenido, la diferencia con los premium es imperceptible en la práctica.
El Top 10 que nadie esperaba
Esto es lo que salió del benchmark v2.4 (29 de abril 2026):
| # | Modelo | Score | $/1k calls | tok/s | Provider |
|---|---|---|---|---|---|
| 1 | Llama 4 Scout 17B | 7.67 | $0.54 | 244 | Groq |
| 2 | Llama 3.1 8B Instant | 7.66 | $0.14 | 368 | Groq |
| 3 | Llama 3.3 70B | 7.64 | $1.36 | 238 | Groq |
| 4 | Mistral Small 4 | 7.54 | $0.94 | 110 | OpenRouter |
| 5 | GPT-OSS 20B | 7.53 | $0.47 | 633 | Groq |
| 6 | Gemini 3.1 Flash Lite | 7.50 | $2.33 | 148 | |
| 7 | Grok 4.1 Fast | 7.50 | $0.81 | 116 | xAI |
| 8 | GPT-OSS 120B | 7.41 | $0.00 | 75 | Ollama Cloud |
| 9 | Devstral Small | 7.35 | $0.48 | 147 | OpenRouter |
| 10 | MiMo V2.5 (Xiaomi) | 7.32 | $0.13 | 79 | Xiaomi |
8 de 10 son open-source. Los 4 modelos en Groq directo tienen más de 200 tokens/segundo, score arriba de 7.5 y cuestan menos de $1.50 por 1k llamadas. Esa combinación no existe en proveedores cerrados.
Y para el que se lo pregunta: sí, Claude Opus 4.7 quedó fuera del top 10. Saca 7.16 y cuesta $117 por 1k calls. 20× más caro que DeepSeek V4 Flash, que via NIM gratis saca 7.07.
La pregunta difícil: ¿pagarías 20× más para ganar 8% de score?
El mismo modelo, distinto proveedor: importa más de lo que crees
Otro hallazgo que me hizo repensar todo: el provider importa tanto como el modelo.
Gemma 4 31B corrió en tres proveedores distintos:
| Provider | Score | Costo | tok/s |
|---|---|---|---|
| NVIDIA NIM | 7.20 | $0.00 | 22.8 |
| OpenRouter | 7.20 | $0.99 | 22.8 |
| DGX Spark local (Q4) | 6.84 | $0.00 | 9.3 |
NIM gratis da exactamente el mismo resultado que OpenRouter pagado. Y Kimi K2.5 en NIM gratis empata al 100% con OpenRouter a $1.26/1k calls. Pagar por ese modelo cuando NIM lo da gratis es, literalmente, quemar dinero.
La regla es simple: si Groq tiene el modelo, usa Groq. Su LPU entrega 5-10× más velocidad a precio competitivo. Si quieres costo cero con calidad FP16, usa NIM (con límite de 40 RPM, pero gratis).
Cómo configurar Claude Code con cualquier proveedor — paso a paso
Acá viene la parte práctica. Todo lo que describo está documentado con archivos de configuración listos en github.com/ctala/claude-code-providers.
Preparación: limpia tu entorno
Antes de cualquier cosa, verifica que no tengas variables del shell sobrescribiendo la configuración:
env | grep ANTHROPIC
Si ves ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL o ANTHROPIC_API_KEY en tu ~/.zshrc o ~/.bashrc, las variables del shell tienen prioridad sobre los settings por carpeta. Desactívalas antes de probar:
unset ANTHROPIC_AUTH_TOKEN ANTHROPIC_BASE_URL ANTHROPIC_API_KEY
La estructura: cada proveedor es una carpeta independiente
El repositorio funciona así: cada subcarpeta es un workspace Claude Code completo con su configuración aislada:
proveedor/
├── .claude/
│ ├── settings.json # Config compartible (BASE_URL, modelos)
│ ├── settings.local.json.example # Plantilla con placeholder para tu key
│ └── settings.local.json # Tu API key real (gitignored)
├── .gitignore # Incluye settings.local.json
└── README.md # Instrucciones específicas
Setup genérico (3 pasos)
## 1. Entra a la carpeta del proveedor
cd <proveedor>/
## 2. Copia la plantilla y pega tu API key
cp .claude/settings.local.json.example .claude/settings.local.json
$EDITOR .claude/settings.local.json
## 3. Lanza Claude Code
claude
## Dentro de Claude, verifica:
/status # Confirma BASE_URL + modelo activo
/model # Cambiar modelo si el proveedor tiene varios
Tienes 20+ proveedores configurados así. Cambias de uno a otro con un cd. No hay conflicto porque cada settings.local.json vive en su propia carpeta.
Proveedores por categoría — cuál elegir según tu situación
Plan mensual: alternativas fijas a Anthropic Max
| Carpeta | Proveedor | Modelos | USD/mes |
|---|---|---|---|
xiaomi/ |
Xiaomi MiMo Token Plan | MiMo V2.5, V2.5-Pro, V2-Omni | $6-$88 |
zai-coding/ |
Z.ai GLM Coding Plan | GLM-4.7, GLM-5.1, GLM-4.5-Air | ~$10-$80 |
minimax/ |
MiniMax Coding Plan | M2.7, M2.7-highspeed | $19-$50 |
qwen-coding/ |
Alibaba Qwen Coding Plan | Qwen3-Coder-Plus, Qwen3-Max | Variable |
Mi recomendación personal: Xiaomi MiMo a $14/mes (plan Standard). MiMo V2.5 salió #10 global en el benchmark con score 7.32 — por encima de Claude Opus 4.7 en 3 de 4 pilares. A 42× menos del costo.
Pay-as-you-go: para cuando no quieres suscripción
| Carpeta | Proveedor | Modelos | Notas |
|---|---|---|---|
deepseek/ |
DeepSeek | DeepSeek-V3, Coder | De los más baratos del mercado |
openrouter/ |
OpenRouter | 300+ modelos | Una key para todo, fallback automático |
moonshot/ |
Moonshot Kimi | Kimi K2 Turbo | Endpoint Anthropic-compat oficial |
zai-api/ |
Z.ai BigModel API | GLM-4.7, GLM-5.1 | Pay-per-token |
OpenRouter es el comodín: una sola API key te da acceso a Anthropic, xAI, Google, Meta, Qwen, DeepSeek — 300+ modelos. Si quieres flexibilidad sin compromisos, es la opción.
Cloud enterprise: AWS, GCP, Azure
| Carpeta | Plataforma | Variables |
|---|---|---|
aws-bedrock/ |
AWS | CLAUDE_CODE_USE_BEDROCK=1 |
google-vertex/ |
GCP | CLAUDE_CODE_USE_VERTEX=1 |
azure-foundry/ |
Azure | Endpoint Anthropic-compat |
Si tu empresa ya tiene cuentas en AWS/GCP/Azure, esto te permite consumir Claude (Bedrock, Vertex) o modelos third-party (Foundry) bajo tu IAM y facturación corporativa. Sin APIs sueltas, sin credenciales fuera del ecosistema.
Local: si tienes el hardware, la privacidad no tiene precio
| Carpeta | Stack | Modelos típicos |
|---|---|---|
ollama-local/ |
Ollama 0.11+ (Anthropic-compat nativo) | Qwen3-Coder, Llama 3.3, DeepSeek-V3 |
lmstudio-local/ |
LM Studio + LiteLLM proxy | Cualquier GGUF |
nvidia-nim/ |
Docker NIM container | NIMs publicados por NVIDIA |
Ollama 0.11+ expone el endpoint Anthropic-compat de forma nativa en :11434. Sin proxy, sin traductor. Es tan simple como correr el container y apuntar ANTHROPIC_BASE_URL=http://localhost:11434.
Si tienes un DGX Spark (o cualquier GPU potente con 24GB+), puedes correr Qwen3-Coder:480B, Llama 3.3:70b, o DeepSeek-Coder-V2 localmente. Costo: $0 (más electricidad). Privacidad: total.
La trampa de ANTHROPIC_AUTH_TOKEN vs ANTHROPIC_API_KEY
Un error que me quitó 2 horas la primera vez — y por eso lo puse en el docs/troubleshooting.md del repo:
ANTHROPIC_AUTH_TOKEN— Para proveedores third-party con endpoint Anthropic-compat (Z.ai, Xiaomi, Moonshot, DeepSeek).ANTHROPIC_API_KEY— Solo para Anthropic directo (pay-as-you-go en api.anthropic.com).
Confundirlas = error 401 inmediato. Y no es obvio hasta que lees la documentación del proveedor.
¿Pero funcionan de verdad estos modelos para coding?
La pregunta del millón. Si vas a usar Claude Code, es para programar. Probé 23 suites distintas, incluyendo code_generation, tool_calling, y structured_output.
Los resultados por suite:
| Suite | Mejor modelo | Score |
|---|---|---|
| Code generation | Llama 4 Scout 17B | 8.04 |
| Tool calling | Llama 3.1 8B Instant | 8.45 |
| Structured output | Llama 3.1 8B Instant | 8.00 |
| String precision | Devstral Small | 8.12 |
| Razonamiento | GPT-OSS 20B | 7.97 |
| Deep reasoning | Llama 4 Scout 17B | 7.68 |
Devstral Small (Mistral, Apache 2.0, $0.10/$0.30 per M tokens) es la sorpresa del benchmark — open-source, barato, y domina coding con un tool calling excelente.
Ahora, una advertencia honesta: el benchmark mide modelos solos, single-turn, sin herramientas. En producción real, un workflow N8N con herramientas (búsqueda web, RAG, API calls) puede invertir el ranking. Qwen 3.5 397B, por ejemplo, parece «regular» en el benchmark (score global 6.72) pero en producción genera artículos excelentes para ecosistemastartup.com porque se integra perfecto con tools de búsqueda.
El benchmark te da la línea base. Tu workflow real te da el resultado.
Setups recomendados por presupuesto
$0/mes — Solo local
Si tienes el hardware (DGX Spark, GPU 24GB+, Apple Silicon):
Modelos:
- Gemma 4 31B → tareas rápidas
- Qwen 3.5 72B → coding y razonamiento de calidad
- Phi-4 14B → juez local
Setup: ollama-local/ carpeta
$14-20/mes — Una suscripción fija
| Opción | Qué obtienes | Mejor para |
|---|---|---|
| Xiaomi MiMo ($14) | MiMo V2.5 (score 7.32) | Content + coding económico |
| GLM Coding ($10) | GLM-5.1, GLM-4.7 | Coding con costo fijo |
| OpenRouter pay-as-you-go | 300+ modelos, ~$20 crédito | Flexibilidad máxima |
Mi recomendación: OpenRouter. Una API key para todo. Si un modelo falla o se deprecata, cambias sin reconfigurar nada.
$50/mes — Combo óptimo
OpenRouter pay-as-you-go: ~$15-20 (DeepSeek + Gemini Flash + Devstral)
MiniMax Agent Pro: $19 (M2.7 para agentes, costo fijo)
Gemini CLI: $0 (prototipos rápidos)
Total: ~$35-40
Esto reemplaza a la suscripción Max de $200 de Anthropic — y no dependes de su disponibilidad.
$100+/mes — Setup completo
OpenRouter: ~$20 (DeepSeek + Devstral para volumen)
MiniMax Agent: $19 (M2.7 para agentes 24/7)
NIM local: $0 (modelos open-source para privacidad)
Anthropic Max (opcional): $200 (Opus 4.7 solo para tareas críticas)
Nota: Anthropic Max lo uso solo para tareas críticas donde necesito Opus 4.7. Para todo lo demás, los modelos alternativos rinden igual o mejor por fracción del costo.
Para dar perspectiva: yo pago $200 al mes por Anthropic Max (la suscripción más cara que existe) y me alcanza la mitad del tiempo. Cuando los servidores de Claude se saturan, las respuestas se vuelven más genéricas — lo notas. Con el setup que describo ($35-40) trabajo sin límites, con fallback automático y sin depender de una sola empresa. No es teoría — es lo que uso todos los días.
El combo de abajo es como tener 300 modelos a tu disposición con una sola API key (OpenRouter). Si uno falla, usas otro. Si Anthropic se cae, rotas a Groq. Si DeepSeek está lento, usas MiMo. Tienes poder de negociación.
Lo que aprendí haciendo esto
Correr 7,725 benchmarks con 68 modelos no es gratis. Invertí:
- ~$350-400 USD en APIs (OpenAI, OpenRouter, MiniMax, Anthropic, Xiaomi)
- ~$45/mes en suscripciones activas
- ~190h de cómputo cloud
- ~50h de cómputo local (GPU en Mac M-series + DGX Spark)
- ~80-100h de trabajo humano (diseño de tests, debugging, análisis, documentación)
Todo eso está disponible gratis bajo MIT license en los dos repositorios. Si te ahorró una tarde de debugging de Anthropic Base URL, dale una estrella — ayuda a que otros devs lo encuentren.
- github.com/ctala/claude-code-providers — workspaces listos para 20+ proveedores
- github.com/ctala/ai-benchmarks-alternativos — 7,725 benchmarks, 68 modelos, 23 suites
- benchmarks.cristiantala.com — dashboard interactivo para encontrar tu modelo en 30 segundos
La verdad incómoda
No existe el «mejor modelo». Y quien te diga que sí, probablemente te está vendiendo uno.
Lo que existe es el mejor modelo para lo que necesitas, con el presupuesto que tienes, en el contexto que trabajas.
- ¿Coding rápido y barato? Devstral Small o DeepSeek V3.
- ¿Agentes 24/7 con costo predecible? MiniMax M2.7 a $19/mes fijo.
- ¿Contenido SEO en español? DeepSeek V3.2 es #1 en news_seo_writing.
- ¿Soporte al cliente donde la honestidad importa? Claude Sonnet — no inventa respuestas.
- ¿Privacidad total? Ollama local con los modelos que ya corren en tu hardware.
- ¿Flexibilidad absoluta? OpenRouter con una key para 300+ modelos.
El ecosistema de LLMs en 2026 es un banquete — y la mayoría sigue comiendo en el mismo restaurante caro. Hay alternativas mejores, más baratas, y en muchos casos, abiertas.
La pregunta no es «cuál es el mejor modelo». La pregunta es: ¿qué quieres construir hoy, y cuánto quieres pagar por las herramientas?
¿Tienes dudas sobre qué modelo usar para tu caso específico? Únete a mi comunidad de emprendedores en Cágala, Aprende, Repite — ahí podemos ayudarte entre todos. Y si quieres ver cómo armo los benchmarks con N8N y OpenClaw en la práctica, el workflow está documentado en el repo.
🚀 ¿Te interesa la tecnología que realmente importa?
En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.
👥 Entrar a la comunidad


