Fable 5 vs Opus 4.8: probé el modelo más caro de IA

Anthropic sacó Fable 5. Es lo más potente que tienen: un tier nuevo, por encima de Opus. Y cuesta el doble: 10 dólares por millón de tokens de entrada y 50 de salida, contra los 5 y 25 de Opus 4.8.

Lo tengo incluido en mi plan hasta el 21 de junio. Después, solo por API. Así que en vez de leer el anuncio y opinar, decidí responder una sola pregunta con datos: ¿vale el doble?

No con una prueba de juguete. Con mi benchmark de verdad y con mis 131 workflows de n8n reales, los que mueven mi negocio todos los días. Adelanto: la respuesta es más interesante que un sí o un no. Por el camino casi le echo a Fable la culpa de un error de medición que era mío, las dos IAs me detectaron deuda de seguridad que yo tenía escondida, y Fable alucinó un detalle al final. Vamos por partes.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad

Cómo lo medí (sin gastar un peso extra)

Tengo un benchmark abierto de modelos de IA que corro hace meses. 89 modelos con cobertura real, más de 13.000 ejecuciones, y un detalle que importa: el juez que puntúa las respuestas es Phi-4, un modelo de Microsoft que corre local en mi infraestructura. Lo elegí justamente porque no evalúo modelos de Microsoft en el benchmark, así que no hay conflicto de interés. El que pone las notas no tiene equipo en la cancha.

Dos cosas más sobre el método, porque sin esto los números no valen:

Primero, mismo terreno para los dos. Medí Fable y Opus por la misma vía: la suscripción, no la API. Comparación pareja. Costo real de toda la corrida: cero. El ranking igual los costea al precio público de mercado, pero el experimento no me costó un peso extra del plan que ya pago.

Segundo, una tarea real además del benchmark. Los benchmarks miden tareas controladas. Pero el trabajo de verdad es largo, ambiguo y aburrido. Así que les di a los dos el mismo encargo: auditar mis 131 workflows de n8n en busca de problemas reales: credenciales mal puestas, nodos rotos, duplicados, secretos expuestos. Solo lectura, sin tocar nada. La clase de tarea donde un modelo o mantiene el criterio del primer archivo al último, o se desordena a la mitad.

Los números del benchmark

Esto es lo que casi nadie te va a contar de un modelo recién salido, porque requiere correr la prueba en vez de repetir el comunicado de prensa.

En quality promedio sobre los 162 tests que comparten Fable y Opus, con el mismo juez: Fable 5 saca 8,58. Opus 4.8 saca 8,81. El modelo que cuesta el doble puntúa por debajo del que cuesta la mitad.

Un paréntesis para que ese número signifique algo, porque «8,58 contra 8,81» no le dice nada a nadie. La escala va de 0 a 10, pero los modelos buenos no se reparten parejo en ella: los de primera línea viven todos apretados entre 7,5 y 8,8. La calidad casi no los separa. Por eso una diferencia de un punto entero, cuando aparece, es enorme. Es la distancia entre «muy bueno» y «el mejor de su categoría», no un detalle de redondeo.

Y si lo abres por categoría, el cuadro es todavía más claro. De 25 categorías de prueba, Fable le gana a Opus en 3, pierde en 18 y empata en 4.

Donde gana, gana en una sola cosa con fuerza:

Categoría	Fable 5	Opus 4.8	Diferencia
Tareas agénticas de horizonte largo	8,66	7,46	+1,21
Fidelidad al contexto (no inventar)	8,38	8,27	+0,11
Orquestación	8,03	7,93	+0,10

¿Qué son las «tareas agénticas de horizonte largo»? Trabajo largo y autónomo donde el modelo da muchos pasos solo, sin que le lleves la mano en cada uno: un refactor grande de código, una auditoría completa, un agente que corre horas detrás de un objetivo. Lo que se mide es si mantiene el rumbo, si después de 40 pasos sigue trabajando en lo que le pediste o ya se perdió en el camino. Ahí Fable saca +1,21, y con la escala de arriba eso no es «un poco mejor»: es cinco veces el margen que lo separa de Opus en todo el resto de las pruebas. En tareas largas, Fable se desvía bastante menos. Las otras dos victorias son empates técnicos: no inventar datos fuera de lo que le diste, y coordinar varios pasos en el orden correcto.

Y donde pierde, pierde en tareas cortas y de formato:

Categoría	Fable 5	Opus 4.8	Diferencia
Conversación multi-turno	7,58	8,80	−1,22
Cumplir políticas/reglas	7,66	8,71	−1,05
Salida estructurada (JSON)	7,88	8,86	−0,98
Resistencia a fuga de credenciales	6,24	7,18	−0,93

Estas son tareas más cortas y cotidianas: mantener el hilo en una conversación de varios mensajes (multi-turno), seguir reglas al pie de la letra, devolver datos en un formato exacto que otro sistema pueda leer (eso es el JSON), y aguantar sin soltar un secreto cuando alguien intenta engañarlo para que lo revele. En todas, Opus rinde mejor a mitad de precio.

El patrón confirma el pitch de Anthropic: Fable está hecho para ese trabajo largo y autónomo. En esa cancha le gana a Opus. En el resto, no.

Cuando metes el costo en la cuenta, Fable cae al puesto 38 del ranking global de 89 modelos. No porque sea malo, es buenísimo. Es que pagar el doble por un empate técnico no tiene sentido para la mayoría de los casos.

Casi le echo la culpa a Fable de un error que era mío

Y aquí viene la parte que no estaba en el plan, que cuento porque es la más útil de todas.

Mientras corría la prueba, vi que Fable sacaba notas sospechosamente bajas en un par de tests de «no inventes datos». Raro, porque cuando leí las respuestas a mano, eran casi perfectas: respondía corto y exacto, justo lo que pedía la consigna.

El reflejo fácil es concluir «el modelo falla acá». El reflejo correcto es el contrario: antes de creerle al número, sospecha de cómo lo mediste.

Y el problema no era Fable. Era yo. Esta vez corrí el benchmark desde un computador distinto al de siempre, uno que no tenía el modelo-juez instalado en local. El juez quedó apuntando a una máquina donde no estaba, recibía un error y, esto es lo grave, en vez de avisar se caía en silencio y le ponía a todo una nota automática de respaldo. El juez de verdad nunca opinó. Y de paso destapó un defecto real en mi código: la dirección del juez estaba escrita a mano en vez de leerse de la configuración, así que correr desde otro equipo lo rompía sin un solo mensaje de error.

Lo arreglé, escribí una herramienta para re-puntuar las corridas afectadas, y volví a medir con el juez funcionando. Las notas «bajas» de Fable subieron: una pasó de 5,7 a 8,2, otra de 3,8 a 6,8. El modelo siempre estuvo bien. Mi medición estaba rota, por un cambio de equipo que parecía inofensivo.

Esto no es un detalle de color. Es el punto entero. El número no es la verdad; el número es una medición, y las mediciones se rompen por razones tontas: un cambio de computador, una ruta escrita a mano. Si no me detengo a leer las respuestas a mano, publico que el modelo caro «alucina más» y habría sido mentira. Ese arreglo ya está en el repositorio público, junto con la corrida completa.

La tarea real: dos IAs, 131 workflows, un encargo idéntico

Con el benchmark limpio, fui a la prueba de verdad. Mismo prompt para los dos. Mismas herramientas (solo lectura). 131 workflows reales.

Opus terminó en una sola pasada. Reporte ordenado, 131 de 131 archivos revisados, hallazgos con archivo y evidencia concreta en cada fila.

Fable se quedó sin sesión a la mitad y tuve que reiniciarlo tras el reseteo. Acá conviene una aclaración, porque es fácil sacar la conclusión equivocada. No fue lentitud del modelo: en velocidad pura los dos están parejos. Lo medí en los 162 tests del benchmark y Opus rinde a 53 tokens por segundo contra 48 de Fable, una diferencia que en la práctica no notas. Lo que pasó es otra cosa, y es la lección operativa que vale más que cualquier número: Fable, «gratis» en el plan de suscripción, viene con un techo de uso más bajo. En una sola tarea agéntica seria te topas con él. Si tu trabajo es largo y autónomo, justo donde Fable brilla, el plan puede no alcanzarte.

¿Y la calidad de la auditoría? Aquí Fable se cobró revancha del benchmark, y tiene sentido: una auditoría de 131 archivos es una tarea de horizonte largo, su única categoría ganadora. Fue marginalmente más exhaustivo en los detalles finos. Encontró un tipo de exposición de datos que Opus pasó por alto. Y describió mejor un par de bugs de lógica enterrados.

Pero acá no lo voy a esconder. Fable cerró su reporte diciendo que había guardado una nota de seguimiento. No guardó nada. Estaba en modo solo-lectura; no podía escribir. Se lo inventó. Un detalle de cierre alucinado, plausible y falso. El modelo más caro del mundo también te miente con la misma cara con la que te dice una verdad. Por eso ninguno de estos reportes se publica sin que un humano verifique. Verifiqué una muestra de los hallazgos de los dos contra los archivos reales: cero falsos positivos en lo que revisé. Pero esa frase final de Fable era humo.

Lo que las dos IAs me encontraron a mí

Y aquí la parte incómoda, que cuento igual porque construyo en público y porque probablemente te pasa lo mismo.

Los dos modelos, por separado y sin que yo se lo pidiera específicamente, llegaron a la misma conclusión sobre mis workflows: tengo deuda de seguridad real. Alrededor de 30 de mis 131 workflows tienen secretos escritos a mano en el código, cosas que deberían vivir en un gestor de credenciales y no en un archivo. Lo verifiqué a mano: tenían razón.

El repositorio es privado, así que no es una fuga pública. Pero «está en un repo privado» no es seguridad; es suerte. Es exactamente la clase de deuda que se acumula cuando construyes rápido y solo, y que nunca priorizas porque «después la arreglo». Las dos IAs me la pusieron en la cara en blanco y negro, con archivo y línea.

No voy a publicar cuáles secretos ni dónde, sería regalar el mapa a cualquiera. Pero el hallazgo en sí es la mejor publicidad del ejercicio: el valor de una auditoría no es que te diga lo que hiciste bien. Es que te encuentre lo que escondiste hasta de ti mismo. Esta semana me toca rotar tokens.

El veredicto: ¿vale el doble?

Para casi todo: no. Opus 4.8 hace el mismo trabajo, o mejor, a mitad de precio. Si tu uso es responder, clasificar, generar contenido, devolver datos estructurados, seguir reglas: te quedas en Opus y duermes tranquilo.

Para una cosa sí: trabajo agéntico de horizonte largo. Refactors grandes, auditorías exhaustivas, agentes que corren solos durante horas sosteniendo un objetivo. Ahí Fable le saca más de un punto a Opus en el benchmark, y se nota en la práctica. Si eso es el corazón de lo que haces, el doble de precio se justifica.

Mi política, entonces, queda así: Opus 4.8 por defecto, Fable 5 cuando la tarea es larga, autónoma y de alto valor. Y un asterisco honesto: si eliges Fable para ese tipo de trabajo en el plan de suscripción, cuenta con que el límite de uso te va a apretar. Tenlo en el presupuesto.

Todo esto está en mi repositorio abierto: el benchmark con sus números, el bug que encontré, la herramienta para arreglarlo, la corrida completa. No te pido que me creas. Te pido que lo corras tú mismo.