Cómo usar Claude Code con cualquier LLM

Hace unos días me encontré con un problema que me tiene harto. Llevo meses usando Claude Code, pero nunca me alcanzó. Partí con la suscripción Max de $100 al mes, luego salté a la de $200 — la más cara que existe — y ni así. O se me acaba la cuota a mitad de mes, o los servidores de Anthropic están caídos, o noto que las respuestas cada vez son más genéricas. Como si al saturarse la plataforma, el modelo se estuviera volviendo más tonto.

Y ahí me di cuenta de algo: estoy pagando $200 al mes (la suscripción más cara que existe) por un servicio que me falla más de lo que funciona.

Por eso empecé a buscar alternativas. Y lo que encontré me cambió la forma en que trabajo con IA.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

👥 Entrar a la comunidad

Pero acá viene la parte que casi nadie sabe: Claude Code no es un modelo. Es una interfaz. Y esa interfaz se puede conectar a casi cualquier proveedor de LLM que exista.

No te estoy hablando de hackear nada ni de hacer algo ilegal. Te estoy hablando de una funcionalidad que el propio Claude Code soporta: cambiar el ANTHROPIC_BASE_URL para apuntar a otro proveedor con endpoint compatible. Y cuando hice eso, descubrí algo que me voló la cabeza.

Lo que nadie te dice sobre Claude Code

Claude Code es una CLI (command-line interface). Envía requests a una API que sigue el formato de Anthropic. Pero ese formato no es exclusivo de Anthropic.

Proveedores como Z.ai (GLM), Xiaomi (MiMo), Moonshot (Kimi), DeepSeek, y muchos otros exponen endpoints que son Anthropic-compatibles. Claude Code envía un request, el proveedor responde, y todo funciona como si nada hubiera cambiado.

En la práctica: clonas una carpeta de configuración, pegas tu API key, y claude arranca usando un modelo que cuesta $6/mes en vez de $200.

¿Suena demasiado bueno? Yo también lo pensé. Por eso hice dos cosas:

Monté un repositorio con workspaces listos — 20+ proveedores configurados, cada uno con su settings.json, instrucciones y troubleshooting. MIT license, úsalo como quieras.
Corrí 7,725 benchmarks con 68 modelos — 91 tests por modelo, 23 suites de evaluación, juez Phi-4 local (Microsoft, 14B, sin conflicto de interés). No tomé la palabra del marketing de ninguno. Medí.

Los resultados me sorprendieron. Y creo que a ti también te van a sorprender.

El dato que incomoda: los modelos más caros son los peores

Antes de pasar a la configuración, necesito que veas algo. Porque sino vas a pensar que te estoy vendiendo humo.

Corrí 68 modelos a través de 91 tests cada uno — razonamiento, coding, generación de contenido, tool calling, agentes, traducción, y más. El juez fue Phi-4 de Microsoft corriendo local en Ollama. Cero sesgo comercial.

La correlación entre precio y calidad fue ρ = −0.460 (p = 0.001). Negativa. O sea: los modelos más caros tienden a rendir peor en tests single-turn.

Y en contenido, la correlación es ρ = −0.603 (p < 0.001). Fuerte. El modelo más caro del benchmark, GPT-5.5 a $46.50/1k calls, sacó un score de 6.44. Mientras tanto, Llama 3.1 8B en Groq a $0.14/1k calls sacó 7.66.

55× más barato, 19% mejor.

Esto no es opinión. Es la data que cualquiera puede replicar si clona el benchmark.

¿Por qué pasa esto?

Porque los modelos premium suelen ser «thinking models» — consumen tokens de razonamiento interno antes de responder. En un test single-turn corto, ese razonamiento extra no mejora el resultado pero sí dispara el costo. Kimi K2.6 facturaba ~3,500 tokens de output cuando el texto visible era solo ~700. Un multiplicador de 5× en costo por la misma respuesta.

Además, los modelos económicos modernos (Llama, GPT-OSS, Gemma 4) están tan bien afinados que para la inmensa mayoría de tareas de coding y contenido, la diferencia con los premium es imperceptible en la práctica.

El Top 10 que nadie esperaba

Esto es lo que salió del benchmark v2.4 (29 de abril 2026):

#	Modelo	Score	$/1k calls	tok/s	Provider
1	Llama 4 Scout 17B	7.67	$0.54	244	Groq
2	Llama 3.1 8B Instant	7.66	$0.14	368	Groq
3	Llama 3.3 70B	7.64	$1.36	238	Groq
4	Mistral Small 4	7.54	$0.94	110	OpenRouter
5	GPT-OSS 20B	7.53	$0.47	633	Groq
6	Gemini 3.1 Flash Lite	7.50	$2.33	148	Google
7	Grok 4.1 Fast	7.50	$0.81	116	xAI
8	GPT-OSS 120B	7.41	$0.00	75	Ollama Cloud
9	Devstral Small	7.35	$0.48	147	OpenRouter
10	MiMo V2.5 (Xiaomi)	7.32	$0.13	79	Xiaomi

8 de 10 son open-source. Los 4 modelos en Groq directo tienen más de 200 tokens/segundo, score arriba de 7.5 y cuestan menos de $1.50 por 1k llamadas. Esa combinación no existe en proveedores cerrados.

Y para el que se lo pregunta: sí, Claude Opus 4.7 quedó fuera del top 10. Saca 7.16 y cuesta $117 por 1k calls. 20× más caro que DeepSeek V4 Flash, que via NIM gratis saca 7.07.

La pregunta difícil: ¿pagarías 20× más para ganar 8% de score?

El mismo modelo, distinto proveedor: importa más de lo que crees

Otro hallazgo que me hizo repensar todo: el provider importa tanto como el modelo.

Gemma 4 31B corrió en tres proveedores distintos:

Provider	Score	Costo	tok/s
NVIDIA NIM	7.20	$0.00	22.8
OpenRouter	7.20	$0.99	22.8
DGX Spark local (Q4)	6.84	$0.00	9.3

NIM gratis da exactamente el mismo resultado que OpenRouter pagado. Y Kimi K2.5 en NIM gratis empata al 100% con OpenRouter a $1.26/1k calls. Pagar por ese modelo cuando NIM lo da gratis es, literalmente, quemar dinero.

La regla es simple: si Groq tiene el modelo, usa Groq. Su LPU entrega 5-10× más velocidad a precio competitivo. Si quieres costo cero con calidad FP16, usa NIM (con límite de 40 RPM, pero gratis).

Cómo configurar Claude Code con cualquier proveedor — paso a paso

Acá viene la parte práctica. Todo lo que describo está documentado con archivos de configuración listos en github.com/ctala/claude-code-providers.

Preparación: limpia tu entorno

Antes de cualquier cosa, verifica que no tengas variables del shell sobrescribiendo la configuración:

env | grep ANTHROPIC

Si ves ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL o ANTHROPIC_API_KEY en tu ~/.zshrc o ~/.bashrc, las variables del shell tienen prioridad sobre los settings por carpeta. Desactívalas antes de probar:

unset ANTHROPIC_AUTH_TOKEN ANTHROPIC_BASE_URL ANTHROPIC_API_KEY

La estructura: cada proveedor es una carpeta independiente

El repositorio funciona así: cada subcarpeta es un workspace Claude Code completo con su configuración aislada:

proveedor/
├── .claude/
│   ├── settings.json              # Config compartible (BASE_URL, modelos)
│   ├── settings.local.json.example # Plantilla con placeholder para tu key
│   └── settings.local.json        # Tu API key real (gitignored)
├── .gitignore                     # Incluye settings.local.json
└── README.md                      # Instrucciones específicas

Setup genérico (3 pasos)

## 1. Entra a la carpeta del proveedor
cd <proveedor>/

## 2. Copia la plantilla y pega tu API key
cp .claude/settings.local.json.example .claude/settings.local.json
$EDITOR .claude/settings.local.json

## 3. Lanza Claude Code
claude

## Dentro de Claude, verifica:
/status    # Confirma BASE_URL + modelo activo
/model     # Cambiar modelo si el proveedor tiene varios

Tienes 20+ proveedores configurados así. Cambias de uno a otro con un cd. No hay conflicto porque cada settings.local.json vive en su propia carpeta.

Proveedores por categoría — cuál elegir según tu situación

Plan mensual: alternativas fijas a Anthropic Max

Carpeta	Proveedor	Modelos	USD/mes
`xiaomi/`	Xiaomi MiMo Token Plan	MiMo V2.5, V2.5-Pro, V2-Omni	$6-$88
`zai-coding/`	Z.ai GLM Coding Plan	GLM-4.7, GLM-5.1, GLM-4.5-Air	~$10-$80
`minimax/`	MiniMax Coding Plan	M2.7, M2.7-highspeed	$19-$50
`qwen-coding/`	Alibaba Qwen Coding Plan	Qwen3-Coder-Plus, Qwen3-Max	Variable

Mi recomendación personal: Xiaomi MiMo a $14/mes (plan Standard). MiMo V2.5 salió #10 global en el benchmark con score 7.32 — por encima de Claude Opus 4.7 en 3 de 4 pilares. A 42× menos del costo.

Pay-as-you-go: para cuando no quieres suscripción

Carpeta	Proveedor	Modelos	Notas
`deepseek/`	DeepSeek	DeepSeek-V3, Coder	De los más baratos del mercado
`openrouter/`	OpenRouter	300+ modelos	Una key para todo, fallback automático
`moonshot/`	Moonshot Kimi	Kimi K2 Turbo	Endpoint Anthropic-compat oficial
`zai-api/`	Z.ai BigModel API	GLM-4.7, GLM-5.1	Pay-per-token

OpenRouter es el comodín: una sola API key te da acceso a Anthropic, xAI, Google, Meta, Qwen, DeepSeek — 300+ modelos. Si quieres flexibilidad sin compromisos, es la opción.

Cloud enterprise: AWS, GCP, Azure

Carpeta	Plataforma	Variables
`aws-bedrock/`	AWS	`CLAUDE_CODE_USE_BEDROCK=1`
`google-vertex/`	GCP	`CLAUDE_CODE_USE_VERTEX=1`
`azure-foundry/`	Azure	Endpoint Anthropic-compat

Si tu empresa ya tiene cuentas en AWS/GCP/Azure, esto te permite consumir Claude (Bedrock, Vertex) o modelos third-party (Foundry) bajo tu IAM y facturación corporativa. Sin APIs sueltas, sin credenciales fuera del ecosistema.

Local: si tienes el hardware, la privacidad no tiene precio

Carpeta	Stack	Modelos típicos
`ollama-local/`	Ollama 0.11+ (Anthropic-compat nativo)	Qwen3-Coder, Llama 3.3, DeepSeek-V3
`lmstudio-local/`	LM Studio + LiteLLM proxy	Cualquier GGUF
`nvidia-nim/`	Docker NIM container	NIMs publicados por NVIDIA

Ollama 0.11+ expone el endpoint Anthropic-compat de forma nativa en :11434. Sin proxy, sin traductor. Es tan simple como correr el container y apuntar ANTHROPIC_BASE_URL=http://localhost:11434.

Si tienes un DGX Spark (o cualquier GPU potente con 24GB+), puedes correr Qwen3-Coder:480B, Llama 3.3:70b, o DeepSeek-Coder-V2 localmente. Costo: $0 (más electricidad). Privacidad: total.

La trampa de ANTHROPIC_AUTH_TOKEN vs ANTHROPIC_API_KEY

Un error que me quitó 2 horas la primera vez — y por eso lo puse en el docs/troubleshooting.md del repo:

ANTHROPIC_AUTH_TOKEN — Para proveedores third-party con endpoint Anthropic-compat (Z.ai, Xiaomi, Moonshot, DeepSeek).
ANTHROPIC_API_KEY — Solo para Anthropic directo (pay-as-you-go en api.anthropic.com).

Confundirlas = error 401 inmediato. Y no es obvio hasta que lees la documentación del proveedor.

¿Pero funcionan de verdad estos modelos para coding?

La pregunta del millón. Si vas a usar Claude Code, es para programar. Probé 23 suites distintas, incluyendo code_generation, tool_calling, y structured_output.

Los resultados por suite:

Suite	Mejor modelo	Score
Code generation	Llama 4 Scout 17B	8.04
Tool calling	Llama 3.1 8B Instant	8.45
Structured output	Llama 3.1 8B Instant	8.00
String precision	Devstral Small	8.12
Razonamiento	GPT-OSS 20B	7.97
Deep reasoning	Llama 4 Scout 17B	7.68

Devstral Small (Mistral, Apache 2.0, $0.10/$0.30 per M tokens) es la sorpresa del benchmark — open-source, barato, y domina coding con un tool calling excelente.

Ahora, una advertencia honesta: el benchmark mide modelos solos, single-turn, sin herramientas. En producción real, un workflow N8N con herramientas (búsqueda web, RAG, API calls) puede invertir el ranking. Qwen 3.5 397B, por ejemplo, parece «regular» en el benchmark (score global 6.72) pero en producción genera artículos excelentes para ecosistemastartup.com porque se integra perfecto con tools de búsqueda.

El benchmark te da la línea base. Tu workflow real te da el resultado.

Setups recomendados por presupuesto

$0/mes — Solo local

Si tienes el hardware (DGX Spark, GPU 24GB+, Apple Silicon):

Modelos:

- Gemma 4 31B → tareas rápidas

- Qwen 3.5 72B → coding y razonamiento de calidad

- Phi-4 14B → juez local

Setup: ollama-local/ carpeta

$14-20/mes — Una suscripción fija

Opción	Qué obtienes	Mejor para
Xiaomi MiMo ($14)	MiMo V2.5 (score 7.32)	Content + coding económico
GLM Coding ($10)	GLM-5.1, GLM-4.7	Coding con costo fijo
OpenRouter pay-as-you-go	300+ modelos, ~$20 crédito	Flexibilidad máxima

Mi recomendación: OpenRouter. Una API key para todo. Si un modelo falla o se deprecata, cambias sin reconfigurar nada.

$50/mes — Combo óptimo

OpenRouter pay-as-you-go: ~$15-20 (DeepSeek + Gemini Flash + Devstral)
MiniMax Agent Pro: $19 (M2.7 para agentes, costo fijo)
Gemini CLI: $0 (prototipos rápidos)
Total: ~$35-40

Esto reemplaza a la suscripción Max de $200 de Anthropic — y no dependes de su disponibilidad.

$100+/mes — Setup completo

OpenRouter: ~$20 (DeepSeek + Devstral para volumen)
MiniMax Agent: $19 (M2.7 para agentes 24/7)
NIM local: $0 (modelos open-source para privacidad)
Anthropic Max (opcional): $200 (Opus 4.7 solo para tareas críticas)

Nota: Anthropic Max lo uso solo para tareas críticas donde necesito Opus 4.7. Para todo lo demás, los modelos alternativos rinden igual o mejor por fracción del costo.

Para dar perspectiva: yo pago $200 al mes por Anthropic Max (la suscripción más cara que existe) y me alcanza la mitad del tiempo. Cuando los servidores de Claude se saturan, las respuestas se vuelven más genéricas — lo notas. Con el setup que describo ($35-40) trabajo sin límites, con fallback automático y sin depender de una sola empresa. No es teoría — es lo que uso todos los días.

El combo de abajo es como tener 300 modelos a tu disposición con una sola API key (OpenRouter). Si uno falla, usas otro. Si Anthropic se cae, rotas a Groq. Si DeepSeek está lento, usas MiMo. Tienes poder de negociación.

Lo que aprendí haciendo esto

Correr 7,725 benchmarks con 68 modelos no es gratis. Invertí:

~$350-400 USD en APIs (OpenAI, OpenRouter, MiniMax, Anthropic, Xiaomi)
~$45/mes en suscripciones activas
~190h de cómputo cloud
~50h de cómputo local (GPU en Mac M-series + DGX Spark)
~80-100h de trabajo humano (diseño de tests, debugging, análisis, documentación)

Todo eso está disponible gratis bajo MIT license en los dos repositorios. Si te ahorró una tarde de debugging de Anthropic Base URL, dale una estrella — ayuda a que otros devs lo encuentren.

github.com/ctala/claude-code-providers — workspaces listos para 20+ proveedores
github.com/ctala/ai-benchmarks-alternativos — 7,725 benchmarks, 68 modelos, 23 suites
benchmarks.cristiantala.com — dashboard interactivo para encontrar tu modelo en 30 segundos

La verdad incómoda

No existe el «mejor modelo». Y quien te diga que sí, probablemente te está vendiendo uno.

Lo que existe es el mejor modelo para lo que necesitas, con el presupuesto que tienes, en el contexto que trabajas.

¿Coding rápido y barato? Devstral Small o DeepSeek V3.
¿Agentes 24/7 con costo predecible? MiniMax M2.7 a $19/mes fijo.
¿Contenido SEO en español? DeepSeek V3.2 es #1 en news_seo_writing.
¿Soporte al cliente donde la honestidad importa? Claude Sonnet — no inventa respuestas.
¿Privacidad total? Ollama local con los modelos que ya corren en tu hardware.
¿Flexibilidad absoluta? OpenRouter con una key para 300+ modelos.

El ecosistema de LLMs en 2026 es un banquete — y la mayoría sigue comiendo en el mismo restaurante caro. Hay alternativas mejores, más baratas, y en muchos casos, abiertas.

La pregunta no es «cuál es el mejor modelo». La pregunta es: ¿qué quieres construir hoy, y cuánto quieres pagar por las herramientas?

¿Tienes dudas sobre qué modelo usar para tu caso específico? Únete a mi comunidad de emprendedores en Cágala, Aprende, Repite — ahí podemos ayudarte entre todos. Y si quieres ver cómo armo los benchmarks con N8N y OpenClaw en la práctica, el workflow está documentado en el repo.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

👥 Entrar a la comunidad

Cómo usar Claude Code con cualquier LLM (y por qué deberías)

Lo que nadie te dice sobre Claude Code

El dato que incomoda: los modelos más caros son los peores

¿Por qué pasa esto?

El Top 10 que nadie esperaba

El mismo modelo, distinto proveedor: importa más de lo que crees

Cómo configurar Claude Code con cualquier proveedor — paso a paso

Preparación: limpia tu entorno

La estructura: cada proveedor es una carpeta independiente

Setup genérico (3 pasos)

Proveedores por categoría — cuál elegir según tu situación

Plan mensual: alternativas fijas a Anthropic Max

Pay-as-you-go: para cuando no quieres suscripción

Cloud enterprise: AWS, GCP, Azure

Local: si tienes el hardware, la privacidad no tiene precio

La trampa de ANTHROPIC_AUTH_TOKEN vs ANTHROPIC_API_KEY

¿Pero funcionan de verdad estos modelos para coding?

Setups recomendados por presupuesto

$0/mes — Solo local

$14-20/mes — Una suscripción fija

$50/mes — Combo óptimo

$100+/mes — Setup completo

Lo que aprendí haciendo esto

La verdad incómoda

`Suscríbete a mi Newsletter`

Lo que nadie te dice sobre Claude Code

El dato que incomoda: los modelos más caros son los peores

¿Por qué pasa esto?

El Top 10 que nadie esperaba

El mismo modelo, distinto proveedor: importa más de lo que crees

Cómo configurar Claude Code con cualquier proveedor — paso a paso

Preparación: limpia tu entorno

La estructura: cada proveedor es una carpeta independiente

Setup genérico (3 pasos)

Proveedores por categoría — cuál elegir según tu situación

Plan mensual: alternativas fijas a Anthropic Max

Pay-as-you-go: para cuando no quieres suscripción

Cloud enterprise: AWS, GCP, Azure

Local: si tienes el hardware, la privacidad no tiene precio

La trampa de ANTHROPIC_AUTH_TOKEN vs ANTHROPIC_API_KEY

¿Pero funcionan de verdad estos modelos para coding?

Setups recomendados por presupuesto

$0/mes — Solo local

$14-20/mes — Una suscripción fija

$50/mes — Combo óptimo

$100+/mes — Setup completo

Lo que aprendí haciendo esto

La verdad incómoda

Publicaciones relacionadas:

Suscríbete a mi Newsletter

Contenido

Recursos

Links

`Suscríbete a mi Newsletter`