Episode 78: El Regreso de Claude Fable 5: Restricciones de

Episodio 078 — 01 de julio de 2026

[00:00] Gancho del episodio

Claude Fable 5 está nuevamente disponible de forma general — Washington levantó las restricciones sobre los modelos Mythos y Fable de Anthropic el 30 de junio, y el listado de anthropic/claude-fable-5 en OpenRouter está activo con una ventana de contexto de 1,000,000 de tokens. En cuanto a lanzamientos, OpenClaw v2026.6.11 y OpenAI Codex rust-v0.142.5 se publicaron en este ciclo: OpenClaw con una pasada de confiabilidad en la entrega de canales y recuperación de sesiones, Codex con una corrección de higiene de datos en los registros de seguimiento. El Claude Sonnet 5 de Anthropic también apareció en OpenRouter con una ventana de contexto de 1M de tokens y un dial de esfuerzo de razonamiento de cuatro niveles, y Google listó Nano Banana 2 Lite — con la marca Gemini 3.1 Flash Lite Image — como su modelo de imágenes Gemini más rápido y más eficiente en costos. En el frente de investigación, el documento Orca está en tendencia en HuggingFace Daily Papers con 161 votos a favor por proponer un espacio latente mundial unificado construido a través de predicción multimodal del siguiente estado, y Agents-A1 de InternScience afirma un rendimiento de agente de clase de billones de parámetros a partir de un modelo de mezcla de expertos de 35 mil millones de parámetros.

[02:00] Lectura de Lanzamiento de Agent Stack: OpenClaw v2026.6.11; OpenAI Codex rust-v0.142.5

Dos lanzamientos estables aterrizaron en este ciclo. OpenClaw v2026.6.11 es un lanzamiento de confiabilidad: el equipo lo presenta como una respuesta directa a comentarios sobre los bordes ásperos que hacen que el harness se sienta menos confiable, con correcciones para respuestas mal ubicadas, envíos atascados, reconexiones caídas, fallos de configuración del modelo y valores predeterminados de administración más seguros. El bloque más grande de trabajo es la confiabilidad de entrega de canales, con correcciones de entrega y reconexión que abarcan Telegram, WhatsApp, Matrix, Google Chat, iMessage, Feishu, Mattermost, WebChat, la IU de Control y la IU de terminal. Los mecanismos concretos importan aquí: los nuevos mensajes directos de Google Chat dejan de ser tratados como conversaciones grupales y llegan al chat individual correcto; los usuarios de webhook de Telegram siguen recibiendo DMs y mensajes grupales a través de reinicios de canales, recargas de configuración y ciclos de recuperación sin apagones temporales; las puertas de enlace cifradas de extremo a extremo de Matrix permanecen en línea durante uso prolongado en lugar de consumir memoria gradualmente hasta que un fallo derriba los canales y el trabajo en vuelo; y las verificaciones de latido en modelos con capacidad de razonamiento ahora muestran la respuesta prevista del asistente en lugar de filtrar el razonamiento interno a Telegram y WhatsApp. En el lado del tiempo de ejecución del agente, el lanzamiento reduce el tiempo de espera de compactación predeterminado a 180 segundos mientras respeta la configuración explícita, preserva la propiedad de compactación del contexto de Codex, y mantiene el estado del ciclo de vida terminal de fallo del proveedor correcto. OpenAI Codex rust-v0.142.5 es un parche enfocado con peso operacional real: evita que las cargas útiles completas de solicitudes de Responses WebSocket se escriban en los registros de seguimiento, una corrección de higiene de datos que importa a cualquiera que envíe trazas de Codex a infraestructura de observabilidad compartida, retroportada deliberadamente a la línea release/0.142. Para los constructores, la pregunta práctica es si alguno de los lanzamientos cambia un valor predeterminado del que actualmente dependen: comparen el changelog contra su versión fijada, reproduzcan una sesión de agente representativa, y observen el comportamiento de reconexión antes de promover el nuevo valor predeterminado en producción.

[03:05] Claude Fable 5 Vuelve: Washington Levanta la Suspensión del Nivel Frontier de Anthropic

El titular del día: Claude Fable 5 está nuevamente disponible de forma general. El gobierno de EE.UU. levantó sus restricciones sobre los modelos Mythos y Fable de Anthropic el 30 de junio, poniendo fin al régimen de exportación que había mantenido el nivel frontier de Anthropic cerrado durante semanas. Fable 5 es la cara de disponibilidad general del nivel clase Mythos — un nivel que se sitúa por encima de Opus en la línea de Anthropic. Comparte el mismo modelo subyacente que Claude Mythos 5; la diferencia es la superficie de implementación. Fable se envía con medidas de seguridad adicionales para capacidades de doble uso, mientras que Mythos 5 se sirve sin esas medidas solo a organizaciones aprobadas. El listado de OpenRouter en anthropic/claude-fable-5, publicado por primera vez el 9 de junio, muestra las capacidades concretas: una ventana de contexto de 1,000,000 de tokens, entradas de texto, imagen y archivo con salida de texto, soporte de razonamiento, y posicionamiento para trabajo autónomo de conocimiento y codificación. El soporte del lado del harness ya está en su lugar — OpenClaw conectó el soporte del proveedor de Claude Fable 5 a mediados de junio, así que enrutar una sesión de agente al modelo es un cambio de cadena de modelo, no un proyecto de integración. Para los constructores, el movimiento inmediato es una prueba comparativa: ejecuten una tarea de codificación o de horizonte largo representativa a través de anthropic/claude-fable-5 contra un valor predeterminado actual de clase Opus y midan dónde se mantienen las afirmaciones de la clase Mythos. Observen lo siguiente: precios y límites de tasa a medida que la disponibilidad se estabiliza, si las salvaguardas de doble uso son observables en cargas de trabajo relacionadas con seguridad, y qué tan rápido se settle el entorno de políticas — la misma administración que levantó estas restricciones ha cambiado de curso antes.

[04:10] Claude Sonnet 5 Aterriza en OpenRouter Con Contexto de 1M

Anthropic ha surfacado Claude Sonnet 5 como un nuevo listado de modelo en OpenRouter, presentado como el modelo de clase Sonnet más capaz hasta ahora en codificación, agentes y trabajo profesional. El modelo es servido por Anthropic mismo y se registra en el identificador anthropic/claude-sonnet-5. Dos detalles destacan para los constructores. Primero, la ventana de contexto es de 1,000,000 de tokens, poniendo a Sonnet 5 en el mismo nivel de contexto largo que los lanzamientos frontier recientes y lo suficientemente grande como para contener repositorios sustanciales o trazas de agente de múltiples sesiones en una sola llamada. Segundo, el pensamiento adaptativo se expone como un parámetro seleccionable con cuatro niveles de esfuerzo de razonamiento — bajo, medio, alto y máximo — permitiendo a los llamadores ajustar la computación hacia arriba o abajo por solicitud en lugar de comprometerse a un modo fijo. Esa combinación reformula un endpoint de clase Sonnet como una superficie ajustable de costo y calidad para bucles de agentes. Observen lo siguiente: cómo OpenRouter surfacea el parámetro de esfuerzo en su API unificada, y si el SDK nativo de Anthropic refleja el mismo dial de cuatro pasos.

[05:08] Google envía modelo de imagen Nano Banana 2 Lite en OpenRouter

Google acaba de lanzar Nano Banana 2 Lite en OpenRouter como google/gemini-3.1-flash-lite-image, agregando un endpoint de imagen Flash-Lite al catálogo público de modelos. El listado lo presenta como el modelo de imagen Gemini más rápido y más eficiente en costos de Google, dirigido a pipelines de desarrolladores de alta velocidad y exploración visual rápida. La longitud del contexto aterriza en 65,536 tokens, suficiente para absorber prompts largos y estructurados y restricciones negativas sin recortado a mitad de llamada. El mecanismo en el que enfocarse es el nivel Flash-Lite en sí: generación de texto a imagen ajustada para baja latencia y alto volumen de llamadas, donde Google típicamente comercia fidelidad frontier por rendimiento y economía unitária. Para los constructores, el efecto práctico es una ruta de imagen nativa de Google que pueden golpear dentro de pipelines de activos masivos, barridos de variantes y bucles de ideación sin pagar tarifas por imagen de nivel Pro. La entrada de OpenRouter señala un endpoint amigable con el enrutador, así que los stacks existentes de agentes de imagen pueden cambiar proveedores con un cambio de cadena de modelo. Observen si la ventana de contexto de 65,536 tokens es completamente utilizable para condicionamiento de imagen o tiene un límite, y cómo los precios se mantienen bajo carga de producción sostenida.

[06:06] Documento Orca Propone Espacio Latente Mundial Unificado a Través de Predicción del Siguiente Estado

Un nuevo documento llamado Orca, en tendencia en HuggingFace Daily Papers con 161 votos a favor, propone un espacio latente mundial unificado construido a través de modelado de predicción del siguiente estado multimodal. El trabajo, alojado en orca-wm.github.io y publicado como arXiv 2606.30534, reformula el modelado mundial: en lugar de entrenar un modelo separado por dominio, Orca comprime la dinámica mundial en un latente compartido y lo transfiere a tareas posteriores, donde sus autores reportan vencer líneas base especializadas. Esa generalidad es la capacidad titular, y es por qué la comunidad lo está leyendo. El mecanismo concreto es la predicción multimodal del siguiente estado, el mismo objetivo de pre-entrenamiento que impulsa el trabajo reciente de agentes e IA embodied, ahora escalado en un latente compartido único en lugar de cabezas por dominio. Para los constructores, la señal práctica es que el pre-entrenamiento de modelos mundiales generales se está convirtiendo en una alternativa creíble a los stacks específicos por tarea, así que los equipos que planean pipelines agentic o embodied tienen una nueva opción arquitectónica que vale la pena evaluar contra sus enfoques actuales de solo SFT. Observen lo siguiente: el suite de evaluación y si el latente se transfiere más allá de los benchmarks del documento.

[07:04] Agents-A1: Agente MoE de 35B Alcanza Rendimiento de Clase de Billones de Parámetros

Agents-A1, un modelo de agente de mezcla de expertos de 35 mil millones de parámetros de InternScience, afirma rendimiento de clase de billones de parámetros sin el costo de billones de parámetros. La contribución del equipo son dos palancas de escala y un pipeline de destilación de tres etapas, no el conteo de parámetros sin procesar.

El escalado de trayectoria de horizonte largo expande las secuencias de acciones de múltiples vueltas en las que el modelo se entrena, empujando más allá de prompts de un solo paso hacia trazas de uso de herramientas extendidas. El escalado de capacidad de agente heterogéneo mezcla capacidades especializadas en dominios de codificación, uso de herramientas y recuperación. El entrenamiento se ejecuta como ajuste fino supervisado en trazas largas de agentes, luego modelos de profesor por dominio que se especializan por familia de tareas, y luego destilación multi-profesor que los fusiona en un estudiante de 35B.

Para los constructores que ejecutan pipelines sensibles a costos, la implicación es clara: el rendimiento de agente frontier ya no está cerrado exclusivamente al conteo de parámetros, ya que las recetas de destilación que absorben profesores especializados pueden superar su categoría de peso. Observen el lanzamiento de pesos abiertos y la replicación de benchmarks independientes; si las ganancias de horizonte largo se mantienen fuera del harness de evaluación de los autores, la receta remodela cómo los equipos dimensionan presupuestos de servicio y eligen estudiantes de pesos abiertos.

[08:02] OmniRoute Convierte un Endpoint en 231 Proveedores de Modelos

OmniRoute, una puerta de enlace de IA de código abierto del desarrollador diegosouzapw, apareció en GitHub Trending esta semana. El proyecto expone un único endpoint compatible con OpenAI y lo apunta a 231 proveedores de modelos, aproximadamente 50 con niveles gratuitos, permitiendo que un agente de codificación alcance Claude, GPT o Gemini sin cableado de cliente específico del proveedor. Colóquenlo frente a Claude Code, Codex, Cursor, Cline o Copilot y la puerta de enlace maneja el enrutamiento. El mecanismo notable es una pasada de compresión apilada — modo RTK más Caveman — aplicada antes de que los prompts salgan de la caja, reclamada para reducir el uso de tokens entre 15% y 95% dependiendo de la carga de trabajo. Una capa inteligente de respaldo automático reenruta solicitudes fallidas o limitadas por tasa al siguiente proveedor disponible, con soporte de MCP y A2A manteniendo intactos los flujos de llamadas a herramientas y de agente a agente. Para los constructores, esto significa un plano de enrutamiento autoalojado que sobrevive a interrupciones de proveedores y rotación de niveles gratuitos. Observen la sobrecarga de latencia en la ruta de compresión y cómo se configura la prioridad de respaldo cuando múltiples proveedores gratuitos están conectados.

[09:00] BlockPilot Elige Tamaños de Bloques en Vivo para Decodificación Especulativa de Difusión

BlockPilot, un artículo que está en tendencia en los Documentos Diarios de HuggingFace con 64 votos positivos, propone aprendizaje de políticas adaptativo por instancia para decodificación especulativa basada en difusión. El trabajo proviene del grupo AMAP-ML y es de código abierto en GitHub junto con la preprint de arXiv. La idea central es reemplazar un tamaño de bloque fijo —cuántos tokens produce el borrador de difusión por paso— con una pequeña política que lee las representaciones de prellenado del prompt y elige un tamaño de bloque por solicitud sobre la marcha. Los autores reportan una aceleración significativa sobre programas de tamaño de bloque estático con una sobrecarga de política mínima, y la cantidad de votos positivos refleja cuán activamente la comunidad de inferencia se está involucrando con el borrador adaptativo. Para los constructores, la implicación es que el tamaño de bloque ya no es un knob de tiempo de despliegue que ajustas una vez; es una decisión aprendida y condicionada al prompt que podría插入se en los pipelines de decodificación especulativa existentes sin reentrenar el modelo objetivo. Lo siguiente a observar es si la política liberada generaliza a través de familias de modelos o solo se mantiene dentro de la distribución de entrenamiento del artículo.

[09:58] La Composición Generativa de Habilidades Aborda el Cuello de Botella de Habilidades de Agentes LLM

Xinyu Zhao, Zhen Tan y Vaishnav Tadiparthi publicaron arXiv 2606.32025 este mes, enmarcando la composición de habilidades como el cuello de botella central a medida que las bibliotecas de habilidades de agentes escalan a través de tareas y dominios. Las habilidades agrupan conocimiento procedimental modular —entornos de sandbox, ejecución de suites de pruebas, refactorizaciones de múltiples archivos— y los enfoques actuales ya sea depositan la biblioteca completa en el contexto de razonamiento del agente o recuperan vía embeddings. Ambos se degradan a medida que las bibliotecas crecen: el contexto completo quema tokens, la recuperación pierde composiciones. El artículo propone composición generativa de habilidades, donde el modelo sintetiza combinaciones de habilidades sobre la marcha en lugar de elegir de un grupo fijo. El mecanismo reencuadra la selección de recuperación a síntesis, con el agente razonando sobre cómo combinar habilidades para la tarea. Para los constructores, esto importa porque las bibliotecas de habilidades son la unidad natural de reutilización a través de agentes, y la estrategia de composición moldea cuánta memoria procedimental lleva un agente sin degradación contextual. Estén atentos a los resultados completos del benchmark del artículo comparando composición generativa contra líneas base de recuperación en suites de agentes estándar.

[10:56] El Artículo TRIAGE Propone Asignación de Crédito con Tipos de Rol para RL Agéntico

TRIAGE es un esquema de asignación de crédito con tipos de rol para aprendizaje por refuerzo agéntico que añade un eje de rol semántico encima de la ventaja de resultado plana de GRPO, para que los tokens de búsqueda, clic, edición, navegación e interacción con objetos ya no compartan una señal de aprendizaje. Los autores Yuanda Xu, Zhengze Zhou y Hejian Sang, en arXiv 2606.32017, enmarcan el problema directamente: la recompensa solo de verificador de GRPO confunde todo lo que produjo un rollout, así que un paso de exploración útil en un rollout fallido es castigado como uno desperdiciado, mientras que los pasos redundantes en un rollout exitoso son reforzados. TRIAGE inserta un juez estructurado que clasifica cada segmento por rol antes de que se compute la ventaja, y la etiqueta de rol modula la actualización. Las ganancias reportadas se concentran donde los rollouts dependen de uso denso de herramientas. Para los constructores que entrenan políticas de agentes con RL, el resultado reencuadra la siguiente palanca de optimización de un verificador más fuerte hacia una mejor capa de asignación de crédito. Estén atentos al modelo juez en sí, ya que la calidad de clasificación de roles se convierte en el nuevo cuello de botella.

[11:54] Cola práctica

De las historias de hoy: Para constructores, el readout de lanzamiento cambia lo que la pila puede asumir por defecto —diferencia el changelog contra tu versión fijada antes de promover el nuevo defecto. El retorno de Claude Fable 5 restaura un nivel frontier por encima de Opus al que las pilas de agentes pueden llegar a través de un slug amigable para routers, y el movimiento inmediato es una competencia contra un defecto actual clase Opus. Lo que esto significa para Sonnet 5: un único endpoint clase Sonnet ahora expone un dial de razonamiento ajustable en lugar de un toggle binario de pensamiento. Lo que esto significa para pipelines de imágenes: si tu trabajo de agente de imágenes está bottlenecked en costo por imagen o límites de tasa en el nivel Pro, el endpoint Flash-Lite está construido específicamente para alto volumen de llamadas. Para constructores, la señal práctica de Orca es que el preentrenamiento general de modelos del mundo se está convirtiendo en una alternativa creíble a pilas específicas de tareas. Agents-A1 importa porque el rendimiento de agentes frontier puede ya no requerir presupuestos de servicio de parámetros de trillion —recetas de destilación profesor-especialista pueden comprimir capacidad frontier en tamaños desplegables. OmniRoute es una capa de enrutamiento self-hosted que se sienta entre un agente de codificación y las APIs de modelos upstream, así que una única URL base compatible con OpenAI reemplaza la configuración cliente proveedor por proveedor. BlockPilot argumenta que el tamaño de bloque debería ser una decisión aprendida, por solicitud, impulsada por las representaciones de prellenado del prompt. Para constructores ejecutando pilas de agentes con bibliotecas de habilidades crecientes, la composición generativa de habilidades señala un cambio lejos del llenado de contexto por fuerza bruta y la recuperación de embeddings hacia la composición basada en generación. Para constructores entrenando políticas de agentes con RL, TRIAGE reencuadra la asignación de crédito, no la calidad del verificador, como la siguiente palanca de optimización.