Herramientas de IA Self-Hosted: La Guía Completa para 2026 (Con Datos Reales)
Hay dos tipos de personas que usan IA hoy: los que le pagan a OpenAI $200 al mes sin saber exactamente para qué, y los que corrieron sus propios modelos, eliminaron dependencias y pagan cero en tokens. Yo fui el primero. Ahora soy el segundo.
Por Qué Migré a Self-Hosting
Cuando empecé a automatizar mi trabajo con agentes de IA, tenía el stack de cualquier founder moderno: n8n Cloud, newsletter en un SaaS de email marketing, ChatGPT Pro, y varias APIs con facturación variable.
El problema no era el costo individual de cada herramienta. Era la acumulación. Y el hecho de que cada automatización nueva potencialmente disparaba el costo del mes.
🚀 ¿Te interesa la tecnología que realmente importa?
En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.
👥 Entrar a la comunidadLa migración a self-hosting resolvió dos cosas: previsibilidad de costos y control total. Hoy sé exactamente cuánto pago cada mes, sin importar cuántos workflows corran o cuántos emails salgan.
Las herramientas que migré:
- n8n Cloud → n8n self-hosted: De pago por ejecución a costo fijo en mi VPS
- MailerLite → Listmonk: De suscripción mensual por suscriptores a costo de infraestructura
- Anthropic Pro $200/mes → modelos open-source locales + APIs selectivas: Dejé de pagar la suscripción de $200/mes de Anthropic cuando los modelos open-source en local alcanzaron la calidad que necesito para el 80% de mis tareas. Sigo usando Anthropic, pero en menor cantidad y solo cuando el caso de uso lo justifica — no como suscripción fija mensual.
Esto no es para todos. Pero si estás construyendo automatizaciones serias y el costo variable te genera fricción, el modelo self-hosted merece considerarse.
El Mapa del Ecosistema Self-Hosted en 2026
Antes de entrar en detalle, el ecosistema se divide en cuatro categorías:
| Categoría | Qué resuelve | Herramienta líder |
| ———– | ————- | —————— |
| Correr modelos localmente | Eliminar costo por token | Ollama |
| Interface de chat | Reemplazar ChatGPT | OpenWebUI |
| Automatización y agentes | Workflows sin límite | n8n |
| Asistente personal autónomo | IA que trabaja sola | OpenClaw |
| Newsletters | Reemplazar Mailchimp | Listmonk |
| Base de datos / CRM | Reemplazar Notion/Airtable | NocoDB |
| Generación de imágenes | Assets visuales | Stable Diffusion / Replicate |
Parte 1: Correr Modelos LLM Localmente
Ollama — El Motor Base
Ollama es el runtime que te permite correr modelos de lenguaje en tu hardware local sin configuración compleja. Un solo comando y tienes Llama, DeepSeek, Qwen o Gemma corriendo en tu máquina.
# Instalar y correr DeepSeek V3 en local
ollama run deepseek-v3
Lo que puedes correr con qué hardware:
| RAM disponible | Modelos recomendados | Calidad |
| ————— | ——————— | ——— |
| 8 GB | Llama 3.3 8B, Qwen3 8B | Buena para tareas simples |
| 16 GB | Qwen3 25B, Gemma 4 26B MoE | Muy buena para la mayoría de usos |
| 32 GB | Qwen3 72B (Q4), Llama 4 Maverick | Excelente, casi nivel cloud |
| 128 GB (NVIDIA Grace Blackwell / DGX Spark) | MiniMax M2.5, DeepSeek V3.2 | Comparable a Claude/GPT-4 |
Nota para LATAM: El NVIDIA DGX Spark no llega fácilmente a Chile y otros países de la región. Una alternativa disponible en Amazon es el ASUS Ascent GX10 con NVIDIA GB10 Grace Blackwell (128GB RAM unificada) — el mismo chip, disponible para envío a LATAM.
Los mejores modelos open-source según mi benchmark de Abril 2026:
| Modelo | Score | Para qué es ideal | Tamaño |
| ——– | ——- | —————— | ——– |
| DeepSeek V3.2 | 7.09/10 | Todo propósito, coding, razonamiento | 120 GB (Q4) |
| MiniMax M2.5 | ~7.0 | Coding (80.2% SWE-Bench) | 90 GB |
| Gemma 4 31B | ~6.8 | Calidad general, rápido | 20 GB |
| Qwen3 72B | ~6.7 | Coding + razonamiento | 42 GB |
| Gemma 4 26B MoE | ~6.5 | Velocidad (solo 3.8B activos) | 16 GB |
Mi configuración actual: OpenClaw corre en un servidor Hetzner Cloud en USA, en Docker. Empecé en Hostinger pero migré cuando el stack completo empezó a chocar con los límites de escritura en disco. Hetzner tiene recursos más predecibles y mejor I/O para workloads con bases de datos. Para modelos, uso MiniMax M2.7 Highspeed ($40/mes, suscripción High Speed) como modelo principal de OpenClaw — nunca he llegado a los límites — y DeepSeek V3.2 via OpenRouter para análisis más pesado.
>
El siguiente paso: cuando llegue mi ASUS Ascent GX10 con NVIDIA Grace Blackwell (128GB), moveré el agente a un contenedor local en el mismo hardware. Sin latencia de red, sin costo por token, todo en casa. Es la misma arquitectura del DGX Spark pero disponible para envío a Chile y LATAM.
OpenWebUI — Reemplazando ChatGPT
Si instalas Ollama, OpenWebUI es la interface. Es lo que ChatGPT debería ser: sin límites de mensajes, sin censura innecesaria, con todos tus modelos en un solo lugar.
docker run -d -p 3000:80 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
Accedes desde localhost:3000 y tienes tu propio ChatGPT privado que puede cargar PDFs, hacer búsquedas y hablar con todos tus modelos.
Parte 2: Automatización Sin Límites con n8n
Si hay una herramienta que más me ha transformado el trabajo, es n8n. Es el Zapier/Make de código abierto, pero sin el costo por ejecución que te mata cuando escalaas.
El Problema con n8n Cloud
n8n Cloud cobra por ejecución. Si tienes workflows de monitoreo que corren cada minuto, o newsletters automáticas, los costos escalan rápido:
| Ejecuciones/mes | n8n Cloud | Self-hosted |
| —————- | ———– | ————- |
| 10,000 | $24 | $0 |
| 50,000 | $60-100 | $0 |
| 200,000 | $300+ | $0 |
Yo tenía workflows que procesaban más de 20,000 ejecuciones mensuales. En cloud eso me costaba $60-100/mes. En self-hosted: cero.
Instalar n8n Self-Hosted
# Con Docker Compose (recomendado)
version: '3'
services:
n8n:
image: n8nio/n8n
restart: always
ports:
- "5678:5678"
environment:
- N8N_BASIC_AUTH_ACTIVE=true
- N8N_BASIC_AUTH_USER=admin
- N8N_BASIC_AUTH_PASSWORD=tu_password
- WEBHOOK_URL=https://tu-dominio.com
volumes:
- ~/.n8n:/home/node/.n8n
Lo Que Tengo Automatizado Con n8n
- Newsletter de Ecosistema Startup: Curación automática de noticias LATAM → síntesis con IA → envío via Listmonk
- Monitoreo de convocatorias: Scraping de fondos y programas de aceleración → base de datos → notificación cuando aparecen nuevas
- Flywheel de LinkedIn: Formulario de lead magnet → NocoDB → secuencia de emails automática
- Cobros automáticos: Workflow de seguimiento de pagos para un cliente
Parte 3: El Stack Completo — Lo Que Uso Hoy
Este es mi stack actual después de 1 año probando, migrando y optimizando:
Infraestructura Base
Hetzner Cloud (USA): ~$12-20/mes (General Purpose, recursos dedicados)
Empecé en Hostinger — tiene buenos precios en LATAM y es útil para servicios web simples (link afiliado). Pero seré directo: Hostinger no es adecuado para correr modelos de IA. Los VPS compartidos de Hostinger tienen limitaciones de CPU, I/O en disco y memoria que hacen inviable correr Ollama con modelos reales. Migré a Hetzner cuando el stack completo empezó a chocar con esos límites.
Para correr modelos de lenguaje localmente necesitas un servidor con recursos dedicados. Opciones que vale la pena considerar (no las he probado todas, pero están en mi lista):
- Hetzner Cloud General Purpose — lo que uso yo, buena relación precio/rendimiento en USA
- RunPod, Vast.ai, Lambda Labs — GPU cloud por horas, ideal para modelos grandes sin hardware propio
- Ollama Cloud — la versión gestionada de Ollama, $0/$20/$100 al mes
Los VPS de hosting web tradicional (Hostinger, SiteGround, Bluehost) son para sitios web, no para inferencia de LLMs. Es importante distinguirlo.
Todo el stack corre en contenedores Docker separados — por seguridad y aislamiento:
├── n8n (automatización) → puerto 5678
├── Listmonk (newsletter) → puerto 9000
├── NocoDB (base de datos / CRM) → puerto 8080
├── OpenClaw (agente IA autónomo) → puerto 3001
└── Nginx (proxy reverso + SSL)
Por qué Docker y no instalar todo directo:
- Aislamiento: cada servicio en su propio contenedor, si uno falla no afecta los demás
- Seguridad: el agente de IA no tiene acceso directo al sistema operativo del host
- Portabilidad: cuando llegue el hardware local (Grace Blackwell), migro los contenedores sin reconfigurar nada
Listmonk vs Mailchimp/MailerLite
Mailchimp para 2,000 suscriptores: $20-30/mes
MailerLite para 2,000 suscriptores: $15-20/mes
Listmonk self-hosted: $0 (solo pagas el servicio de envío SMTP)
Con Listmonk + Postmark (servicio de envío) pago aproximadamente $3-5/mes en emails transaccionales para 1,900 suscriptores. Ahorro de ~$300/año solo en newsletters.
NocoDB — Base de Datos Sin Código
NocoDB es Airtable/Notion open-source. Lo uso como:
- CRM de contactos e inversiones
- Banco de ideas de contenido
- Tracking de tareas con mi agente IA
- Registro de métricas semanales
Gratuito self-hosted. Notion Pro cuesta $16/mes por persona.
OpenClaw — El Agente que Trabaja Solo
OpenClaw es donde la automatización se vuelve agencia real. No es solo un chatbot: es un agente que tiene acceso a mis herramientas, lee mis archivos, puede ejecutar código y trabajar en background mientras duermo.
Lo que hace OpenClaw en mi caso:
- Genera el contenido semanal de LinkedIn (domingo 20:00, automático)
- Responde comentarios de posts con mi voz y experiencia
- Monitorea el Top 10 de mi comunidad Skool
- Genera reportes SEO semanales
- Sindica posts a Dev.to y Hashnode
Parte 4: Los Números Reales — Mi Benchmark de Modelos
En abril 2026 ejecuté 27 tests con 8 modelos diferentes para comparar calidad, velocidad y costo. Estos son los resultados que más me importan para uso con agentes:
Ranking por Valor (Score / Costo)
| Modelo | Score | Costo/Request | Tipo |
| ——– | ——- | ————– | —— |
| DeepSeek V3.2 | 7.09/10 | $0.00024 | Open Source (MIT) |
| Gemini 2.5 Flash Lite | 6.95/10 | $0.00362 | Propietario |
| MiniMax M2.7 Highspeed | 6.74/10 | $0.00421 | Parcial |
| Claude Sonnet 4.6 | 6.70/10 | $0.00415 | Propietario |
El dato que más me impresionó: DeepSeek V3.2 tiene un score mejor que Claude Sonnet 4.6 y cuesta 17 veces menos por request. Con 100 requests/día:
- Claude: ~$0.42/día = ~$153/mes
- DeepSeek: ~$0.024/día = ~$8.8/mes
Velocidad (Tokens por Segundo)
| Modelo | Tokens/seg | Para qué |
| ——– | ———– | ——— |
| Gemini 2.5 Flash Lite | 212 | Clasificación, resúmenes rápidos |
| GPT-5.4 Mini | 142 | Tool calling, agentes rápidos |
| Claude Sonnet 4.6 | 62 | Contenido de alta calidad |
| MiniMax M2.7 HS | 51 | Agentes con suscripción fija |
| DeepSeek V3.2 | 36 | Análisis profundo |
Parte 5: Por Qué Self-Hosted No Es Para Todos
Seré honesto: hay casos donde el cloud tiene sentido.
Self-hosted NO conviene si:
- Eres técnico pero el tiempo de configuración no vale el ahorro
- Gastas menos de $50/mes en herramientas cloud
- Necesitas escala masiva inmediata sin tiempo de configuración
- Tu empresa tiene requisitos de compliance que un VPS compartido no cumple
Self-hosted SÍ conviene si:
- Gastas más de $100-150/mes en SaaS de automatización/email/IA
- Tienes datos sensibles que no quieres en servidores de terceros
- Quieres control total sobre tus modelos y workflows
- Estás dispuesto a invertir 1-2 semanas de configuración inicial
El break-even según datos del mercado: si gastas $5,000-10,000/año en APIs y SaaS de IA, el self-hosting se paga solo en menos de 24 meses incluso considerando el tiempo de configuración.
Parte 6: Cómo Empezar — El Orden Correcto
Si estás convencido, este es el orden que recomiendo:
Semana 1: Infraestructura Base
1. Contrata un VPS de 4-8GB RAM (Hostinger tiene buenos precios en LatAm)
2. Instala Docker + Docker Compose
3. Configura Nginx + Certbot (SSL gratis)
4. Sube n8n primero — es el que más ahorra de inmediato
Semana 2: Modelos y Automatización
5. Instala Ollama para tener modelos locales
6. Configura OpenWebUI como interface
7. Migra tus primeros workflows de Zapier/Make a n8n
Semana 3-4: Stack Completo
8. Migra newsletter a Listmonk si tienes más de 500 suscriptores
9. Instala NocoDB como base de datos
10. Considera OpenClaw si quieres un agente autónomo real
Herramientas para Cloud (cuando el local no alcanza)
Algunas tareas tienen sentido en cloud incluso con self-hosting:
- MiniMax M2.7 Highspeed ($40/mes, suscripción High Speed): Lo que uso actualmente como modelo principal de OpenClaw. Nunca he llegado a los límites de la suscripción y el rendimiento es consistente. Es la mejor opción si quieres costo fijo sin sorpresas
- DeepSeek V3.2 (pay-as-you-go): Backup barato cuando el local está ocupado
- OpenRouter: Una API key para 290+ modelos, con fallback automático
Preguntas Frecuentes
¿Necesito saber programar para empezar con self-hosting de IA?
No necesariamente. Con Docker Compose puedes levantar n8n, Listmonk y NocoDB siguiendo tutoriales sin escribir código. Ollama se instala con un comando. El 80% del stack es configuración, no programación.
¿Cuánto cuesta realmente el self-hosting de IA?
Un VPS de 4GB RAM en Hetzner o Hostinger cuesta $5-15/mes. Eso cubre n8n, Listmonk, NocoDB y un servidor de Ollama básico. Los modelos de IA son gratuitos si los corres localmente.
¿Qué hardware necesito para correr modelos de IA grandes localmente?
Depende del modelo. Para modelos de 7-13B (suficientes para la mayoría de tareas): 16GB RAM. Para modelos de 70B+ tipo DeepSeek V3.2 completo: necesitas 128GB de memoria unificada. El ASUS Ascent GX10 con NVIDIA Grace Blackwell es la opción disponible para LATAM que ofrece 128GB.
¿Puedo combinar modelos locales con APIs cloud?
Sí, y es la estrategia más inteligente. Modelos locales para tareas rutinarias (costo cero), APIs cloud para tareas que requieren modelos frontier (DeepSeek V3.2, MiniMax M2.7). OpenClaw hace este routing automáticamente.
¿Listmonk puede reemplazar completamente a Mailchimp?
Para newsletters de hasta 100K suscriptores con envío vía SMTP propio (Postmark, SendGrid): sí. Tiene segmentación, automatizaciones básicas y estadísticas. Le falta la facilidad de arrastrar y soltar de Mailchimp para usuarios no técnicos.
¿n8n self-hosted es más complicado que Zapier?
La configuración inicial requiere más tiempo (1-2 horas vs. registro inmediato). Pero una vez configurado, tienes workflows ilimitados sin costo adicional. Zapier cobra por cada ejecución — con alto volumen, n8n self-hosted puede ahorrar $200-500/mes.
Conclusión: El Stack que Cambió Mi Negocio
Desde que migré a self-hosted:
1. Bajé el gasto en IA y automatización significativamente — n8n ilimitado, newsletter sin costo por suscriptor, y dejé la suscripción de $200/mes de Anthropic porque los modelos open-source locales cubren la mayoría de mis casos
2. Eliminé límites de uso — n8n corre lo que necesita sin mirar el contador
3. Mis datos son míos — nada pasa por servidores de terceros que no controlo
4. Automaticé más porque el costo marginal es cero — si el próximo workflow no cuesta nada extra, lo construyo
Aún pago por algunos servicios cloud selectivos (Anthropic cuando el caso lo justifica, MiniMax para mi agente principal, Hetzner para el servidor). La diferencia es que ahora elijo cuándo pagar y por qué — no una suscripción fija que corre aunque no la use.
El tradeoff real es tiempo de configuración. Pero ese tiempo vale cuando tienes un stack que corre 24/7 sin sorpresas en la factura.
La pregunta no es si self-hosting es mejor. La pregunta es si el ahorro justifica tu tiempo. Para mí, con el stack descrito, definitivamente lo hace.
¿Quieres ver cómo está configurado mi stack completo? Lo comparto con más detalle en la comunidad — tutoriales paso a paso, configuraciones que uso y el n8n workflow de newsletter que ahorra $10,000+/año. Todo en Cágala, Aprende, Repite.
Metodología del benchmark: 27 tests ejecutados desde Santiago, Chile, el 11 de Abril de 2026. Tests incluyen content generation, tool calling, coding, reasoning, y task management. Todos los datos en mi repositorio privado de benchmarks.
🚀 ¿Te interesa la tecnología que realmente importa?
En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.
👥 Entrar a la comunidad


