GLM 5.2 no es gratis: ni mi Spark de US$4.000 lo corre

GLM 5.2 es open source y gratis de descargar. Correrlo es otra historia. En el mejor de los casos pide unos 240 GB de memoria, y eso solo en su versión más comprimida. Tengo un DGX Spark de US$4.000 dedicado a esto, con 128 GB, y no le alcanza ni para arrancar. No es opinión, es aritmética. Lo que me molesta no es el modelo. Es el humo de quien grita “gratis” sin haber abierto nunca una terminal.

¿Por qué todos dicen que GLM 5.2 es gratis?

Porque mezclan dos cosas distintas. Una es la licencia. GLM 5.2 salió bajo licencia MIT el 13 de junio de 2026: cualquiera baja los pesos, sin pagar, sin pedir permiso. Eso es real y está buenísimo.

La otra es el costo de usarlo. Descargar el modelo no cuesta nada. Hacerlo funcionar a una velocidad que sirva cuesta, y caro. Los dos hechos conviven, pero los posts que ves solo te cuentan el primero. “Pesos abiertos bajo MIT” no junta tantos likes como “es gratis y le gana al modelo de pago”.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad

¿Cuál es la mejor IA gratis? La pregunta está mal hecha

Es la búsqueda que todos hacen, así que la respondo directo: la mejor IA open source de hoy (GLM 5.2, DeepSeek, los Qwen grandes) no es gratis de correr para casi nadie. La palabra “gratis” da por hecho que ya tienes dónde ejecutarla. Ahí está la trampa.

Los modelos open source que compiten con los de pago son enormes. No corren en tu laptop. Corren en una fracción mínima de los computadores que existen en el mundo. El modelo chico que sí entra en tu máquina no es el que viste ganando en los rankings.

Cuánto cuesta correr GLM 5.2 de verdad

GLM 5.2 es un modelo de mezcla de expertos con unos 750 mil millones de parámetros. Cuánto te cuesta correrlo depende de dos cosas: cuánto lo comprimas (y cuánta calidad sacrifiques con eso) y qué tan rápido lo quieras. Este es el mapa real:

Versión	Memoria	Hardware típico	Costo aprox.	Velocidad
FP16 (completa, sin perder calidad)	~1.642 GB	2-3 servidores DGX (16-24 GPUs)	US$500.000 a 1M+	como un proveedor
4 bits (decente, calidad casi intacta)	~411 GB	varias GPUs de datacenter	~US$150.000	buena
2 bits (mínima usable, calidad degradada)	~240 GB	Mac Studio 256 GB o rig 4× RTX 4090	~US$10.000	3-6 tokens/s
No entra	128 GB	DGX Spark	US$4.000	no corre

Léela de abajo hacia arriba. Mi Spark de US$4.000, comprado justamente para esto, no llega ni al mínimo: GLM 5.2 necesita 240 GB y él tiene 128. Ni siquiera entra.

El primer escalón donde el modelo arranca es un Mac de US$10.000, comprimido a 2 bits (pierde calidad) y a 3 o 6 tokens por segundo. A esa velocidad escribes más rápido tú que el modelo. Para tenerlo decente y rápido ya estás en seis cifras. Y para correrlo como te lo entrega un proveedor (OpenRouter, Nvidia NIM y compañía), en precisión completa, son dos o tres servidores DGX y hasta un millón de dólares.

Y eso es solo comprar el equipo. No incluye la cuenta de luz de tenerlo encendido, ni que en unos meses sale un modelo más grande y tu inversión queda corta, ni tus horas manteniendo todo. El proveedor reparte ese costo de datacenter entre miles de usuarios y te cobra fracciones de dólar por millón de tokens. Tú lo pagarías entero, para ti solo, con el equipo apagado la mayor parte del día.

DeepSeek, Qwen, GLM: “gratis” es marketing

El patrón se repite con cada lanzamiento. Sale un modelo open source que le pelea a los de pago, y al día siguiente medio internet anuncia que ahora la IA top es gratis. DeepSeek pasó por esto. Los Qwen grandes también.

La parte que no entra en el video: para correr esos modelos a una velocidad que sirva, necesitas una inversión en hardware que paga sola varios años de suscripción a una API. La licencia abierta no te ahorra ese costo. Solo cambia quién lo paga. En vez del proveedor del modelo, lo pagas tú, en equipo.

El patrón se repite en decenas de posts de creadores que hablan de modelos que nunca corrieron. La fórmula es siempre parecida: una imagen épica, una caja fuerte que se abre y el modelo saliendo hacia un computador de escritorio, y un titular tipo “el mejor modelo de coding ya no se alquila, es open source”. Suena increíble. Tiene dos problemas. El primero: ese computador de escritorio con una tarjeta gráfica no corre GLM 5.2 ni de lejos. La imagen dibuja algo que no se puede hacer. El segundo: “ya no se alquila” es justo al revés. Lo sigues alquilando por API, porque no tienes dónde correrlo. La caja fuerte se abrió, sí, pero adentro hay algo que solo entra en un equipo de US$12.000. Abierto no es lo mismo que accesible. Para la mayoría, ese modelo “liberado” queda tan lejos como el cerrado de pago.

Entonces, ¿yo qué corro en local? Y para qué

No hablo de esto desde afuera. Uso modelos open source todos los días, en mi operación y en mi trabajo. En el Spark corro Gemma 4 y Qwen 3.6, modelos más chicos que sí entran. Funcionan bien. Pero por el ancho de banda de la memoria, los tokens por segundo no alcanzan para usarlos en una conversación en vivo.

Así que les doy el trabajo donde la velocidad no importa: mis agentes, procesos que dejo corriendo de noche, y mi propio benchmark de modelos de IA. Para eso son perfectos y no pago API.

Y cuando necesito un modelo open source con velocidad real (casi todas mis automatizaciones en n8n), lo corro por API en Ollama Cloud. Open source, sí. Gratis, no. Ese es el punto que se pierde: open source no significa que no pagas. Significa que eliges dónde pagas, entre tu propio hardware o una API. Lo mismo cuando uso Claude Code conectado a modelos open source: el modelo es abierto, el cómputo lo pone alguien y alguien lo paga.

¿Cuándo SÍ conviene correr un modelo en local?

Cuando el motivo es tus datos, no tu bolsillo. Si manejas información sensible y no quieres que salga de tu máquina, correr el modelo en casa tiene todo el sentido del mundo. Privacidad y control son el argumento honesto del self-hosting. El ahorro no lo es. Cuando alguien te venda lo local por barato, desconfía. Cuando te lo venda por privacidad, escucha. Ese es el filtro.

La prueba final está en el ranking de OpenRouter

Si correr GLM 5.2 gratis en tu casa fuera práctico, nadie pagaría por usarlo. Mira el ranking de uso de OpenRouter: GLM 5.2 está entre los modelos más usados de la plataforma a fines de junio de 2026. Y OpenRouter es un servicio de pago, donde consultas el modelo por API y te cobran por token.

O sea: hasta la gente que ama GLM 5.2 lo usa pagando. Porque es lo que tiene sentido. El modelo es excelente. “Gratis” es la parte inventada.

Antes de compartir el próximo “es gratis”

Que quede claro: celebro que el open source esté tan bueno. Por algo tengo el Spark, por algo pruebo cada modelo que sale, por algo mi stack está repartido entre varios modelos según la tarea. Esto no es contra el open source. Es contra el humo.

La próxima vez que veas “este modelo es gratis y le gana al de pago”, hazte dos preguntas antes de compartirlo: ¿cuánto cuesta el computador que lo corre a una velocidad usable?, ¿y lo necesito respondiendo en vivo o me sirve trabajando de noche? Con esas dos respuestas decides en serio, con tu caso y tu presupuesto. No con el entusiasmo de alguien que nunca abrió una terminal.

Preguntas frecuentes

¿GLM 5.2 es gratis?

Los pesos son gratis de descargar (licencia MIT). Correrlo no. Necesita alrededor de 240 GB de memoria en su versión más comprimida, lo que pide hardware de varios miles de dólares. Es gratis de licencia, no de usar.

¿Qué hardware necesito para correr GLM 5.2 en local?

En su versión más comprimida (2 bits), unos 240 GB de memoria. En la práctica, un Mac Studio con 256 GB de memoria unificada (cerca de US$10.000) o un equipo con varias GPU. Ningún GPU de consumo, por caro que sea, lo corre solo.

¿Puedo correr GLM 5.2 en un computador normal?

No. Solo en un Mac Studio o Mac Pro con 256 GB de memoria unificada, o un equipo de varias GPU con 256 GB de RAM, y aun así en su versión comprimida. Un computador estándar no se acerca al mínimo.

¿Conviene correr modelos open source en local?

Sí, cuando el modelo entra en tu hardware y el caso tolera poca velocidad: agentes, procesos de noche, lotes. Para uso en vivo, una API suele salir más barata que el equipo que necesitarías para igualar esa velocidad.