Saltar al contenido
CristianTala_
IA y Automatización

Claude Fable 5: análisis con benchmark propio [2026]

Por Cristian Tala Sánchez ·

Claude Fable 5: análisis con benchmark propio [2026]
en este artículo
  1. Qué es Claude Fable 5
  2. Lo que dice mi benchmark
  3. El matiz honesto: dónde flaquea
  4. Cuándo usarlo y cuándo no
  5. Cómo usarlo barato
  6. Claude Fable 5 vs Claude Opus 4.8

Claude Fable 5 es el modelo más caro que Anthropic ha puesto a disposición general: $10 por millón de tokens de entrada y $50 de salida, el doble que Opus 4.8. Lo medí en mi benchmark con 103 ejecuciones más una suite de contexto largo: calidad pura de 8.38 sobre 10 — top 10 entre 89 modelos — pero puesto #38 del ranking compuesto (v2.9, junio 2026) cuando el precio entra en la cuenta. Ya lo enfrenté directo contra Opus 4.8; este post es el análisis completo del modelo: qué es, qué números saca, dónde flaquea y cuándo tiene sentido pagarlo.

Qué es Claude Fable 5

Fable 5 salió el 9 de junio de 2026 y es, según la propia documentación de Anthropic, su modelo más capaz de disponibilidad general, construido para “el razonamiento más exigente y el trabajo agéntico de horizonte largo”. Ficha verificable:

  • Ventana de contexto de 1 millón de tokens por defecto, hasta 128K tokens de salida por request
  • $10 / $50 por millón de tokens (entrada/salida) — 2x el precio de Opus 4.8
  • Adaptive thinking siempre activo: es el único modo de razonamiento del modelo, no se puede apagar ni acepta temperature; la profundidad se controla con el parámetro effort
  • Clasificadores de seguridad integrados que pueden rechazar solicitudes: la API devuelve stop_reason: "refusal" como respuesta exitosa, y existe un mecanismo de fallback para reintentar en otro modelo Claude sin pagar dos veces el costo de caché
  • Disponible en la API de Claude, Amazon Bedrock, Vertex AI y Microsoft Foundry
  • Tiene un gemelo: Claude Mythos 5, mismas capacidades y precio pero sin clasificadores, disponible solo para clientes aprobados en Project Glasswing

El dato operativo que más importa si pagas suscripción: Fable 5 viene incluido en los planes Pro, Max, Team y Enterprise hasta el 22 de junio de 2026. Después pasa a créditos de uso. Y mientras está incluido, cada sesión consume los límites del plan a aproximadamente el doble de velocidad que Opus.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad

Lo que dice mi benchmark

Contexto rápido. Mi benchmark corre hace meses: 89 modelos con cobertura real, más de 13.000 ejecuciones, todo en español y con tareas aplicadas — workflows de n8n, scripts, contenido, razonamiento, extracción de datos. El juez es Phi-4, un modelo de Microsoft corriendo local en mi infraestructura; no evalúo modelos de Microsoft, así que el que pone las notas no tiene equipo en la cancha. El score compuesto pesa 60% calidad, 20% costo, 10% velocidad y 10% latencia.

A Fable 5 lo medí por la vía de la suscripción de Claude Code (la corrida me costó $0 extra; el ranking igual lo costea al precio público de API). Los números en la versión 2.9 (junio 2026):

MétricaClaude Fable 5Lectura
Calidad pura8.38#9 de 89 — top 10 del benchmark
Score global compuesto6.26#38 de 89
Contexto largo (retrieval en español)10.0puntaje perfecto en 8K, 64K, 128K y 256K
Resistencia a fuga de credenciales6.24el más bajo de la familia Claude en mi data
Velocidad60 tokens/spareja con Opus 4.8
Latencia promedio35.4 salta — no es para chat en vivo
Costo por 1.000 llamadas$78.00el más caro del benchmark completo

La brecha entre el #9 en calidad y el #38 en el compuesto es el precio, nada más. El ranking está diseñado para premiar a quien entrega calidad por dólar, y $78 por 1.000 llamadas es una losa: Opus 4.8 cuesta $39 por la misma carga y Devstral Small, el #1 del ranking, cuesta $0.48 — 162 veces menos.

El 10.0 en contexto largo merece mención aparte: puntaje perfecto en cada tamaño que mi suite le puso, hasta 256K tokens. Pocos modelos del benchmark logran eso. El 1M declarado no lo verifiqué completo — mi suite llegó hasta 256K por la vía de la suscripción — así que el techo real entre 256K y 1M queda como dato pendiente, no como promesa confirmada.

El matiz honesto: dónde flaquea

Cuatro límites concretos, medidos:

Pierde contra Opus en la mayoría de las tareas. Sobre los 162 tests que ambos comparten, Fable saca 8.58 y Opus 8.81. De 25 categorías, gana 3 y pierde 18 — pierde justo en lo cotidiano: conversación multi-turno, seguir reglas, devolver JSON exacto. El desglose completo, con tablas por categoría, está en el experimento donde los enfrenté.

Seguridad por debajo de su familia. En mi suite de resistencia a fuga de credenciales saca 6.24 — Opus 4.8 por API saca 8.79 y Sonnet 4.6 saca 8.52. Es un resultado incómodo para un modelo que se vende con clasificadores de seguridad integrados: los clasificadores filtran solicitudes dañinas, pero ante un intento de extraerle un secreto del contexto, Fable aguantó menos que sus hermanos más baratos. Si tu agente maneja credenciales, este número importa más que el marketing.

El techo de uso en suscripción. Mientras está incluido en el plan, cada sesión pesa el doble que una de Opus. En mi prueba real — una auditoría de 131 workflows de n8n — Fable se quedó sin sesión a la mitad y tuve que esperar el reseteo. La ironía: el techo aprieta exactamente en el tipo de tarea larga para la que el modelo es bueno.

Latencia alta. 35.4 segundos de promedio por llamada en mis corridas. Para trabajo agéntico de fondo da igual; para cualquier cosa de cara al usuario, no sirve.

Y el matiz de método que aplica siempre: mido tareas acotadas en español, no sesiones agénticas de días. Con 103 ejecuciones más 51 corridas de contexto largo la cobertura es sólida, pero es mi benchmark, no la verdad revelada.

Cuándo usarlo y cuándo no

Úsalo si tu caso es:

  • Trabajo agéntico de horizonte largo: refactors grandes, auditorías exhaustivas, agentes que corren horas sosteniendo un objetivo — su única categoría ganadora contra Opus, con +1.21 puntos de ventaja
  • Tareas que necesitan retrieval confiable sobre contextos enormes (su 10.0 hasta 256K es de los mejores que he medido)
  • Mientras esté incluido en tu plan (hasta el 22 de junio de 2026): probarlo gratis en tarea larga es la mejor forma de saber si te aporta

No lo uses si:

  • Tu carga es trabajo corto y cotidiano: clasificar, responder, generar contenido, JSON estructurado — Opus lo hace igual o mejor por la mitad
  • Tu agente maneja secretos y la resistencia a prompt injection es crítica
  • Necesitas latencia de chat en vivo
  • Pagas por volumen: a $78 por 1.000 llamadas, cualquier tarea que un modelo barato resuelve bien es plata quemada — para eso está el tier de $0.48

Cómo usarlo barato

Con Fable 5 “barato” es relativo, pero hay tres palancas:

  1. La ventana de suscripción — hasta el 22 de junio de 2026 está incluido en Pro, Max, Team y Enterprise sin costo extra. Es la vía con la que lo medí: corrida completa, $0 adicionales. Después de esa fecha, créditos de uso.
  2. El parámetro effort — controla la profundidad del razonamiento. Como el adaptive thinking no se puede apagar, regular el esfuerzo es la única palanca real de costo por llamada dentro del modelo.
  3. Política de dos modelos — Fable solo para la tarea larga y de alto valor; todo lo demás a un modelo más barato. Es lo que hago con mi stack: el trabajo de volumen corre en modelos open source de centavos, como expliqué en cómo usar Claude Code sin pagar $200 al mes.

Claude Fable 5 vs Claude Opus 4.8

La comparación corta, con mis números y la misma vara (el experimento completo, con la auditoría real de 131 workflows, está acá):

Claude Fable 5Claude Opus 4.8
Calidad (162 tests compartidos)8.588.81
Tareas agénticas de horizonte largo8.667.46
Categorías ganadas (de 25)318
Resistencia a fuga de credenciales6.247.18
Costo por 1.000 llamadas$78.00$39.00
Latencia promedio (vía suscripción)35.4 s47.8 s

Mi política quedó así: Opus 4.8 por defecto, Fable 5 cuando la tarea es larga, autónoma y de alto valor. El modelo no es malo — es buenísimo. Lo que no resiste análisis es pagar el doble por un empate técnico en el 88% de los casos.


Ver en el Benchmark: Claude Fable 5 aparece con su score actualizado en benchmarks.cristiantala.com, que se regenera con cada lote mensual. El análisis metodológico completo, con los 89 modelos, está en el post vivo del benchmark.

Preguntas frecuentes

¿Qué es Claude Fable 5?

Claude Fable 5 es el modelo más capaz que Anthropic ha liberado de forma general, lanzado el 9 de junio de 2026. Está diseñado para razonamiento exigente y trabajo agéntico de horizonte largo: tareas donde el modelo da muchos pasos solo durante horas. Tiene ventana de contexto de 1 millón de tokens, hasta 128K tokens de salida por request, y trae clasificadores de seguridad que pueden rechazar solicitudes.

¿Cuánto cuesta Claude Fable 5?

Por API cuesta $10 por millón de tokens de entrada y $50 por millón de salida — el doble que Claude Opus 4.8. Con mi supuesto de consumo (300 tokens de entrada, 1.500 de salida por llamada), son $78 por cada 1.000 llamadas. Hasta el 22 de junio de 2026 viene incluido sin costo extra en los planes Pro, Max, Team y Enterprise; después pasa a créditos de uso.

¿Claude Fable 5 es mejor que Claude Opus 4.8?

En calidad promedio, no: sobre los 162 tests que ambos comparten en mi benchmark, Fable 5 saca 8.58 y Opus 4.8 saca 8.81. De 25 categorías, Fable gana 3, pierde 18 y empata 4. Donde sí gana, gana fuerte: tareas agénticas de horizonte largo, con +1.21 puntos de ventaja. Para ese caso específico el doble de precio se justifica; para el resto, Opus rinde igual o mejor por la mitad.

¿Qué es Claude Mythos 5 y en qué se diferencia de Fable 5?

Claude Mythos 5 es el mismo modelo con las mismas capacidades y el mismo precio, pero sin los clasificadores de seguridad que pueden rechazar solicitudes. No está disponible al público: se ofrece solo a clientes aprobados dentro del programa Project Glasswing de Anthropic. Si no tienes ese acceso, la vía es Fable 5, que es la versión disponible de forma general.

¿Hasta cuándo está incluido Claude Fable 5 en la suscripción de Claude?

Anthropic lo incluyó sin costo extra en los planes Pro, Max, Team y Enterprise desde el lanzamiento (9 de junio) hasta el 22 de junio de 2026. Desde el 23 de junio sale de esos planes y se usa con créditos de uso. Ojo con un detalle: mientras está incluido, cada sesión de Fable consume los límites del plan aproximadamente al doble de velocidad que una sesión de Opus.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad