Episode 59: Hermes Agent 0.15.x, Codex 0.135, Claude Code

OpenClaw v2026.5.27 se mantiene como la línea base estable de OpenClaw mientras que v2026.5.28 es un elemento en versión beta a vigilar, y Hermes Agent v2026.5.29.2 es el nuevo evento de lanzamiento estable del agent-stack. Codex 0.135, Claude Code 2.1.157 y Opus 4.8 completan el contexto de lanzamiento del EP059. Hermes obtiene el movimiento de plataforma más grande: orquestación kanban, ejecución worktree-por-tarea, tareas programadas, búsqueda de sesión más rápida, defensa de promptware, paquetes de skills, selección de catálogo MCP, mensajería ntfy y correcciones de seguimiento para dashboards loopback, modo inseguro de Docker, resolución de PATH MCP, medios .md y empaquetado de plugins. Codex agrega mejores diagnósticos, estado remoto, perfiles de permisos nombrados, presets de sandbox del SDK, soporte de instalación no interactiva y confiabilidad del TUI/runtime. Claude Code agrega Opus 4.8, flujos de trabajo dinámicos, carga automática de plugins en .claude/skills, andamiaje de plugins, cambio de worktree, opciones de detalle de telemetría y limpieza de sesión en segundo plano. Luego el episodio avanza hacia políticas de workspace-agent, MCP de runtime de navegador, gráficos de flujo de código, telemetría de uso y medios construidos por agentes.

[00:00] Apertura: los agent stacks se vuelven más fáciles de inspeccionar El tema útil de hoy es la capacidad de inspección. Hermes está haciendo visible la orquestación. Codex está nombrando más del runtime a través de doctor, /status, perfiles y presets de sandbox del SDK. Claude Code está poniendo flujos de trabajo, plugins, esfuerzo, worktrees y sesiones en segundo plano sobre rieles más claros. Los workspace agents de OpenAI están obteniendo controles de políticas alrededor de publicación, Slack, voz y acciones de aplicación. El carril del proyecto mantiene la misma forma: estado del navegador, estado de flujo de código, costo de uso y renderizado de medios se convierten en cosas que un agente puede consultar en lugar de adivinar.

[03:00] Lectura de lanzamiento de OpenClaw y Hermes Agent OpenClaw inicia este bloque de lanzamiento como una verificación de estabilidad. La etiqueta estable más reciente permanece como v2026.5.27, lo que significa que el trabajo de límite de contenido, recuperación del app-server de Codex, catálogo de proveedores, proveedor de embeddings, parámetro de pensamiento VLLM, entrega de canales y caché de metadatos del lanzamiento estable anterior sigue siendo la línea base. La línea más nueva v2026.5.28 es visible como material beta, y vale la pena vigilarla porque las notas beta señalan las superficies exactas que les importan a los agent stacks locales: recuperación del app-server, separación de cwd/workspace de subagents, aislamiento de contexto de hooks, liberación de bloqueo de timeout, evasión de reinicio obsoleto, identidad de canal, advertencias de herramientas recuperadas de Discord, rutas de entrega de Slack y Telegram, rechazo de callbacks malformados, adiciones de proveedores y validación de timeout del navegador. Como es beta, pertenece al carril de vigilancia en lugar del carril de actualización estable.

Hermes Agent tiene el lanzamiento estable de agent-stack más grande del día. La línea 0.15 mueve mucha maquinaria a superficies de producto core. Kanban ya no es un tablero delgado alrededor de prompts; crece con funcionalidades de orquestación como auto-descomposición, topología de swarm, tareas programadas, ejecución worktree-por-tarea y anulaciones de modelo por tarea. Eso importa porque el trabajo multi-agente necesita asignación durable, aislamiento y recuperación. Un tablero solo es útil si el trabajo puede dividirse, reclamarse, reintentarse e inspectarse sin convertirse en un一堆 sueltode transcripciones de chat.

La forma del codebase también cambió. La ruta grande run_agent.py se dividió en módulos más pequeños, el cold start mejoró nuevamente y session_search se volvió dramáticamente más rápida y gratis. El valor práctico es simple: cuando un agente local tiene muchas sesiones, muchas herramientas y mucho trabajo recordado, la búsqueda y el costo de inicio se convierten en parte del flujo de trabajo. La búsqueda lenta hace que la memoria se sienta falsa. La búsqueda rápida hace que el trabajo previo sea accesible.

Hermes también agrega defensa de promptware, soporte de Bitwarden Secrets Manager, paquetes de skills, un TUI multi-sesión Ink, dos proveedores de generación de imágenes, un catálogo MCP aprobado por Nous con un selector interactivo, mensajería ntfy e integración más profunda con xAI. Los lanzamientos de seguimiento también son importantes. El loop de recarga 401 loopback del dashboard está corregido. El modo inseguro de Docker se convierte en un opt-in explícito en lugar de inferirse del host de enlace. La resolución de PATH de comandos nativos MCP mejora. La entrega de medios Markdown está restaurada. El empaquetado ahora incluye manifiestos de plugins incluidos en distribuciones wheel y source.

[12:00] Codex 0.135 hace que los fallos sean más diagnosticables Codex 0.135 no es el lanzamiento más ruidoso, pero mejora la superficie de soporte día a día. codex doctor ahora reporta diagnósticos más ricos de entorno, Git, terminal, app-server e inventario de threads. Ese tipo de comando importa porque los fallos de agentes de codificación son frecuentemente ambientales: el helper de shell está mal, el app-server está obsoleto, el transporte remoto está desajustado, el estado del repo es sorprendente o la terminal está corrompiendo la salida.

/status remoto ahora muestra detalles de conexión y versión del servidor cuando el TUI está conectado a través de un transporte remoto. /permissions entiende perfiles de permisos nombrados y muestra perfiles personalizados. Los builds empaquetados pueden descubrir el helper zsh parcheado incluido a través de objetivos macOS y Linux soportados. El SDK de Python agrega presets amigables de Sandbox para APIs de thread y turn. Los scripts de instalación soportan instalación no interactiva a través de CODEX_NON_INTERACTIVE=1.

Las correcciones también son prácticas: las tablas markdown y las listas multilínea se renderizan de manera más legible, la salida del TUI es más estable en macOS y Zellij, la completación de slash-commands preserva el texto de borrador, las sesiones más antiguas de tmux y iTerm en modo control mantienen el comportamiento normal de Ctrl-C, las herramientas de extensión muestran errores mejor, los archivos adjuntos remotos se adjuntan correctamente, el runtime del app-server respeta las elecciones de modelo y las herramientas MCP desconectadas dejan de mostrarse como en ejecución. El lanzamiento se trata de hacer que las ejecuciones de Codex locales y remotas sean más fáciles de explicar cuando se portan mal.

[19:00] Claude Code 2.1.157 y Opus 4.8 El último carril de Claude Code se movió a través de una ola de lanzamiento de Opus 4.8. La versión 2.1.154 agrega soporte de Opus 4.8, flujos de trabajo dinámicos, cambios de modo rápido, actualizaciones de etiqueta de esfuerzo, dispatch de shell en segundo plano desde claude agents, ejecución de herramientas de streaming por defecto, variables de entorno de sesión stdio MCP y renderizado de aprobación pendiente para servidores .mcp.json. El piece de flujo de trabajo dinámico es la parte más importante: permite que Claude Code organice esfuerzos más grandes a través de agentes en segundo plano y estado de flujo de trabajo en lugar de hacer que un solo turn foreground cargue todo el trabajo.

La versión 2.1.156 corrige un problema de bloque de pensamiento en Opus 4.8. La versión 2.1.157 luego convierte el comportamiento de plugins y worktree en un camino más directo. Los plugins en directorios .claude/skills se cargan automáticamente. claude plugin init crea el andamiaje de un nuevo plugin. La autocompletación de /plugin mejora. claude agents honra el campo de agente configurado en settings.json. EnterWorktree puede cambiar entre worktrees administrados por Claude. La telemetría de decisión de herramientas puede incluir parámetros de herramientas cuando el usuario opta por detalle. Los worktrees completados se dejan desbloqueables para que la limpieza pueda podarlos.

El lanzamiento de Opus 4.8 de Anthropic es el lado de modelo del mismo movimiento. Se posiciona para codificación más difícil, tareas agentic y trabajo profesional, con precios regulares sin cambios respecto a Opus 4.7 y modo rápido más barato que los precios de modo rápido anteriores. La evaluación correcta no es solo si un benchmark se movió. Es si la capa de modelo más flujo de trabajo puede ejecutar una tarea más grande, hacer mejores preguntas, evitar soluciones erróneas silenciosas y limpiar su worktree después.

[27:00] Los workspace agents necesitan políticas porque ahora viven en canales compartidos Las notas de lanzamiento del workspace-agent de OpenAI muestran otra dirección: los agentes se están convirtiendo en actores de workspace compartido. Los workspace agents pueden usar GPT-5.5 con controles de esfuerzo de razonamiento. Los admins pueden controlar qué roles publican agentes en un directorio compartido. La configuración guiada ayuda a los usuarios a configurar agentes. Los agentes pueden producir archivos de audio. Los agentes de Slack pueden responder a mensajes de seguimiento relevantes en un thread después de la mención inicial. Los constructores pueden definir salvaguardas para acciones en cada aplicación habilitada.

Esos detalles importan porque los agentes compartidos tienen riesgos diferentes al chat personal. Un agente de thread de Slack puede ser útil solo si sabe cuándo un seguimiento es relevante y cuándo quedarse_callado. Un agente de salida de voz necesita almacenamiento, revisión y expectativas de distribución. Un directorio compartido necesita permisos de publicación, no solo un montón de prompts ingeniosos. Las salvaguardas de aplicación necesitan establecerse antes de que el agente obtenga herramientas con capacidad de escritura.

El acceso remoto de Codex y los tokens de acceso encajan en el mismo patrón. La máquina que posee los archivos y credenciales permanece como límite de ejecución, mientras que teléfonos, scripts e identidad de workspace administrada se convierten en superficies de control. Esa es la arquitectura estable para el trabajo de agentes: ejecutar cerca de los datos, supervisar desde el canal que se ajuste al momento y mantener la identidad con ámbito.

[34:00] El MCP de runtime de navegador supera la adivinanza desde código fuente Chrome DevTools MCP es un buen proyecto a vigilar porque los agentes frontend necesitan evidencia del navegador. Un modelo puede leer archivos fuente y aún así perder el problema de runtime: una solicitud de red falló, un error de consola ocurrió después de la hidratación, una regla CSS fue reemplazada, un ID de página cambió o un problema de rendimiento solo aparece una vez que la aplicación se ejecuta. Un puente MCP respaldado por DevTools permite al agente inspeccionar el estado real del navegador.

El lanzamiento actual es una pequeña corrección de CLI de page-id, pero la forma del proyecto es más grande que ese parche. MCP puede exponer superficies de DOM, consola, red, runtime y rendimiento de una manera que los agentes de codificación pueden preguntar. Eso diffiere del uso visual de computadora. Las capturas de pantalla muestran lo que un usuario ve; el estado de DevTools explica por qué el navegador se comportó de esa manera. Para aplicaciones locales, el mejor loop es evidencia primero: reproducir, inspeccionar, parchear, verificar.

[39:00] El flujo de código, el costo de uso y los medios generados se vuelven legibles por agentes El radar del proyecto tiene tres superficies útiles más. CodeGraph les da a los agentes un grafo de conocimiento de código pre-indexado local. Su último lanzamiento mejora la resolución de implementación Go gRPC, le da menor prioridad a archivos generados, maneja rupturas de dispatch dinámico incluyendo fuente del endpoint más llamadores y calledores, mejora la selección de endpoints multi-módulo e integra contexto de enrutamiento para proyectos pequeños. Eso es lo que un agente de codificación necesita cuando una pregunta es sobre flujo, no solo coincidencias de texto.

ccusage ataca un punto ciego diferente: uso y costo. Su lanzamiento actual agrega tarifas de Opus 4.8, precios de respaldo, advertencias de precios faltantes, explicaciones de telemetría de Copilot, correcciones de costo de opencode y mejoras de lanzamiento/instalación. A medida que los flujos de trabajo en segundo plano y las ejecuciones multi-agente se vuelven normales, la telemetría de uso deja de ser contabilidad trivial. Se convierte en entrada de scheduler. Un sistema que conoce el costo del modelo, precios faltantes y brechas de telemetría puede elegir un modelo más pequeño, esperar una ventana de presupuesto o detenerse antes de que una tarea se vuelva desperdicio.

Hyperframes es el counterpart de medios. Treats video como código fuente HTML más runtime renderizable, lo que hace los medios generados más inspectables. Los agentes pueden editar código fuente, renderizar, inspeccionar, parchear comportamiento de reproducción y mantener la escena de medios en control de versiones. Eso es más confiable que tratar un MP4 final como el primer artefacto real.

[46:00] Cierre La cola práctica del EP059 está clara. Hermes es la versión principal de plataforma para estudiar. Codex es mejor mostrando qué entorno y permisos está utilizando realmente. Claude Code está moviendo flujos de trabajo, plugins, esfuerzo y worktrees hacia primer plano. Opus 4.8 cambia el segmento de modelos de codificación de gama alta. Los agentes de workspace necesitan políticas porque ahora operan en canales compartidos. Browser MCP, grafos de código, telemetría de uso y medios controlados por código fuente son la capa de herramientas que hace que el trabajo de los agentes sea menos misterioso. La mejor pila no es la que tiene más agentes funcionando. Es aquella donde cada agente puede ver el runtime, conocer la code path, entender el budget y dejar evidencia detrás.