
OpenClaw 2026.5.12, Hermes Foundation, Claude Code Background Controls y Gemini Agent Deployments
AgentStack Daily EP051 comienza con un resumen de lanzamiento del stack de agentes: OpenClaw v2026.5.12 reduce las instalaciones principales, fortalece Telegram, Codex, plugin, gateway, navegador y rutas de configuración, y mejora la entrega de respuestas; Hermes Agent 2026.5.16 añade la beta nativa de Windows, instalación vía PyPI, inicio más rápido, un proxy local compatible con OpenAI, visión, video, navegador, LSP y mejoras de verificación; Claude Code 2.1.143 y 2.1.142 refuerzan las dependencias de plugins, indicadores de sesión en segundo plano, comportamiento de PowerShell y aislamiento de worktree. Show notes: https://tobyonfitnesstech.com/es/podcasts/episode-51/
🎧 Listen to Episode[00:00] Gancho — la actualización comienza con el tamaño de instalación, la resiliencia del polling y los agentes en segundo plano
OpenClaw v2026.5.12 es lo primero que debemos ver hoy porque cambia las superficies del host que determinan si una pila de agentes es agradable de ejecutar todos los días: qué se instala por defecto, cómo Telegram sobrevive a bloqueos del event-loop, cómo se comportan los medios respaldados por auth de Codex/OpenAI y las rutas MCP, cómo las actualizaciones de plugins evitan quedarse colgados, y cómo la entrega de respuestas maneja tarjetas de solo contenido enriquecido y respuestas con fuente. Junto a esto, Hermes Agent 2026.5.16 es un lanzamiento importante de distribución y runtime: Windows nativo está en beta temprana, pip install hermes-agent se vuelve real, el cold start se reduce, las llamadas de navegador CDP se vuelven dramáticamente más rápidas, y el acceso a proveedores respaldados por OAuth puede exponerse a través de un proxy local compatible con OpenAI. Claude Code 2.1.143 y 2.1.142 añaden los controles de sesión en segundo plano y de plugins que importan cuando los agentes CLI están haciendo trabajo real desatendido: habilitación/deshabilitación de plugins consciente de dependencias, costo de contexto proyectado, aislamiento de worktree en segundo plano, flags de MCP y configuración preservados, valores por defecto de PowerShell, y límites en los bucles de stop-hook.
La historia externa después del resumen de lanzamientos es sobre la forma del despliegue en producción. Google Cloud ahora permite a los usuarios de Gemini Enterprise Agent Platform crear revisiones de agentes inmutables y dividir el tráfico entre revisiones activas, mientras Priority PayGo está generalmente disponible para latencia más predecible sin un contrato de throughput comprometido. Luego cerramos con una migración de esquema que los builders no deben dejar para la última semana: la API de Interactions de Google está reemplazando outputs planos con una línea de tiempo steps tipada y consolidando la configuración de salida bajo response_format.
[03:00] Resumen de lanzamientos de la pila de agentes — OpenClaw v2026.5.12, Hermes Agent 2026.5.16 y Claude Code 2.1.143/2.1.142
OpenClaw v2026.5.12 no es un lanzamiento con una sola característica destacada; es un lanzamiento de calidad del host. El primer cambio visible para el operador es la forma de las dependencias. Bedrock, Bedrock Mantle, Slack, OpenShell sandbox, Anthropic Vertex, WhatsApp y paquetes relacionados se mueven fuera del runtime core para que una instalación solo cargue lo que necesita. Esto importa porque los hosts de agentes envejecen mal cuando los proveedores opcionales se convierten silenciosamente en conos de dependencias obligatorias. Instalaciones más ligeras significan menos fallos de build específicos de plataforma, menor radio de impacto de actualizaciones, y menos tiempo depurando un proveedor que nunca habilitaste.
El segundo grupo de cambios es la resiliencia del canal. El polling de Telegram se mueve a un worker aislado con spooling local duradero, así que un bloqueo del event-loop principal tiene menos probabilidades de drop o retrasar mensajes entrantes. El lanzamiento también preserva el formato HTML renderizado en anuncios lazy cron, omite medios de grupo no mencionados antes de la descarga cuando el mention-gating está activo, y elimina burbujas de progreso de herramientas antes de rotar a una respuesta real. La receta práctica para operadores es simple: después de actualizar, prueba una respuesta en streaming, un anuncio programado o estilo cron, un caso límite de medios de grupo, y una turno interrumpido. Este lanzamiento está tratando de hacer que la capa de mensajería se comporte como un transporte, no como un efecto secundario frágil de la UI.
Las rutas de Codex y OpenAI son la otra razón principal para actualizar OpenClaw. Las herramientas de medios respaldadas por perfil de auth permanecen disponibles cuando las credenciales de OpenAI viven en el store de perfil de auth del agente en lugar del entorno. Los errores de refresh de OAuth de Codex se clasifican más limpiamente, los fallos de refresh de app-server de alta confianza ya no colapsan en fallos de runtime crudos, y los modelos de agente OpenAI seleccionables se tratan como requisitos de runtime de Codex incluso cuando la configuración primaria es Anthropic. El lanzamiento también mantiene el aislamiento de CODEX_HOME por agente sin reescribir HOME por defecto, lo cual es la diferencia entre credenciales de Codex aisladas y romper el descubrimiento normal de user-home de subprocesos. Para builders que ejecutan hosts mixtos Claude/OpenAI/Codex, el punto es menos bucles falsos de reauth y menos fallos de cambio de modelo.
OpenClaw también ajusta la mecánica de plugins y gateway. Las instalaciones de plugins preservan las peer dependencies, manejan pnpm 11, restauran un subpath deprecated del memory SDK para plugins companion, escanean puntos de entrada del runtime más estrechamente, descubren plugins de proveedores a través de credenciales de setup estructuradas, y preservan registros de instalación a través de la limpieza del doctor. El gateway y el historial de sesión ahora transportan números de secuencia monotónicos de transcripción y transmiten frames explícitos de deltaText y replace para que los clientes SDK no necesiten hacer diff de la salida del asistente localmente. Respuestas de solo contenido enriquecido, tarjetas, botones y respuestas de solo herramientas de mensaje se tratan como contenido saliente real en lugar de ser descartados como vacíos. Si estás construyendo sobre el protocolo gateway, este es el tipo de lanzamiento donde las suposiciones del cliente deben probarse contra tarjetas, medios, respuestas con fuente y reconexiones, no solo texto plano.
El endurecimiento de seguridad y configuración también es concreto. Las raíces de perfil de usuario de Windows se incluyen en las raíces de home bloqueadas del sandbox para que las carpetas con credenciales sean negadas incluso cuando HOME apunta a otro lugar. Las credenciales de proveedor se resuelven a través de referencias de secretos estructuradas en lugar de cadenas amplias que parecen variables de entorno, reduciendo la inferencia accidental de credenciales. Las mutaciones semánticas de configuración se serializan y reintentan centralmente, lo cual reduce el riesgo de clobber cuando comandos concurrentes editan la configuración. Los comandos CLI del navegador solicitan explícitamente el scope existente de admin del gateway del operador, evitando ruido del loop de aprobación. Estos no son cambios glamorosos, pero son exactamente los cambios que mantienen a un host de agentes de convertirse en un accidente de credenciales o un misterio en tiempo de actualización.
Hermes Agent 2026.5.16 es la historia más amplia del runtime. El lanzamiento nombra el soporte nativo de Windows como beta temprana, con un instalador de PowerShell, rutas nativas de subproceso y PTY, gestión de procesos basada en taskkill, auto-instalación de MinGit, detección de stubs de Python, preservación de Ctrl+C, y muchas correcciones específicas de Windows. También envía una wheel real de PyPI: pip install hermes-agent && hermes. Eso cambia el onboarding porque un usuario ya no tiene que clonar un repo o ejecutar un instalador de shell personalizado solo para probar el agente. El framework de dependencias lazy y el checker advisory son igualmente importantes: las bibliotecas pesadas de proveedores se difieren al primer uso, los fallbacks del instalador se mueven a través de niveles de extras, y los escaneos de install/update buscan versiones inseguras.
Los números de rendimiento en Hermes valen la pena destacar porque se mapean directamente a la sensación diaria del agente. El lanzamiento dice que el cold start se reduce en aproximadamente diecinueve segundos a través de caching de skills, imports lazy, lookup de modelo disk-cache-first, bibliotecas de proveedores diferidas, y verificaciones de doctor en paralelo. hermes tools All-Platforms cae de aproximadamente catorce segundos a menos de un segundo y medio. Las evaluaciones de browser_console se vuelven dramáticamente más rápidas al reutilizar el WebSocket CDP persistente del supervisor en lugar de crear una sesión de DevTools fresca por llamada. Para agentes pesados de navegador, el CDP persistente no es un detalle de implementación; cambia si un loop de debugging se siente instantáneo o constantemente espera la configuración del navegador.
Hermes también añade capacidades que lo hacen más un hub. hermes proxy expone proveedores autenticados con OAuth a través de un endpoint local compatible con OpenAI, así que herramientas como Codex, Aider, Cline, o extensiones de editor pueden comunicarse con Claude Pro, ChatGPT Pro, SuperGrok, o cuentas similares respaldadas por OAuth a través de una interfaz que ya entienden. El caching de prompts de Claude de una hora entre sesiones reduce el costo de prefijos repetidos a través de resumes y nuevas sesiones. vision_analyze ahora pasa píxeles a modelos con capacidad de visión en lugar de reducir la imagen a texto. Una herramienta unificada video_generate soporta proveedores de video conectables. computer_use obtiene un backend de cua-driver no compatible con Anthropic. /handoff mueve la sesión activa a otro modelo, persona o perfil mientras preserva el contexto y el historial de herramientas. La pregunta operacional después de este lanzamiento no es solo "¿Hermes funciona?" Es, "¿Cuáles herramientas locales deberían apuntar a Hermes como su puente de proveedor?"
Para agentes de escritura de código, Hermes añade dos guardrails que son especialmente relevantes. Los diagnósticos semánticos LSP se ejecutan después de write_file y patch, así que el agente ve errores del language-server en el archivo modificado antes de que el trabajo posterior continúe. Un footer verificador de mutaciones de archivo por turno le dice al agente qué cambió realmente en disco después de un turno que escribió archivos. Eso es una respuesta directa a un modo de fallo común: el modelo cree que editó un archivo, pero el patch falló, sobreescribió la región equivocada, o produjo un error de tipo silencioso. Los diagnósticos más los resúmenes de mutación no reemplazan los tests, pero acortan el loop antes de que los tests incluso se ejecuten.
Claude Code 2.1.143 y 2.1.142 redondean el lado del agente CLI. La aplicación de dependencias de plugins significa que deshabilitar un plugin ahora se niega cuando otro plugin habilitado depende de él, con una pista de cadena de deshabilitación, y habilitar un plugin fuerza la habilitación de dependencias transitivas. El panel de navegación del marketplace de plugins muestra el costo de contexto proyectado por turno e invocación, lo cual ayuda a los operadores a ver cuándo un plugin no solo está instalado sino que es costoso. Una nueva configuración worktree.bgIsolation: "none" permite que las sesiones en segundo plano editen la copia de trabajo directamente cuando los worktrees de Git son poco prácticos, mientras que la limpieza de worktree ya no recurre a la eliminación destructiva si git worktree remove falla.
Las correcciones de agentes en segundo plano son las que hay que probar en trabajo real. Las sesiones en segundo plano preservan el modelo y el nivel de esfuerzo después de despertar del estado idle. /bg preserva la configuración de MCP, settings, add-dir, plugin-dir, configuración estricta de MCP, modelo de fallback, y disponibilidad de bypass-permission a través de respawn o detach. Los agentes Claude aceptan flags para add-dir, settings, configuración de MCP, directorios de plugins, modo de permisos, modelo, esfuerzo, y valores por defecto de skip-permission, y las sesiones en segundo plano lanzadas desde el dashboard respetan el modo de permisos por defecto configurado. Las llamadas de herramientas MCP HTTP y SSE ahora respetan el timeout configurado en lugar de estar limitadas a sesenta segundos. Los stop hooks que siguen bloqueando ahora terminan con una advertencia después de ocho bloqueos consecutivos a menos que se sobrescriba. En resumen: menos workers en segundo plano pierden su entorno, permisos, modelo, o llamadas MCP de larga duración.
[24:00] Gemini Enterprise Agent Platform — revisiones, división de tráfico y Priority PayGo
La actualización del 15 de mayo de Gemini Enterprise Agent Platform de Google Cloud añade una primitiva de despliegue que los equipos de agentes necesitan: revisiones de agentes inmutables con división de tráfico. Antes de este tipo de característica, un despliegue de agente a menudo se comporta como un endpoint de servicio mutable. Actualizas el prompt, herramientas, configuración de modelo, routing o código de contenedor; el endpoint cambia; y el rollback depende de qué tan disciplinado fue tu proceso de release. Las revisiones te dan un artefacto de despliegue nombrado. La división de tráfico te permite mover un porcentaje controlado del tráfico de producción a la nueva versión mientras la versión anterior todavía sirve a la mayoría de los usuarios.
Eso suena como despliegue de software estándar, pero importa más para agentes porque un pequeño cambio puede alterar la elección de herramientas, latencia, comportamiento de rechazo, uso de memoria, o perfil de alucinaciones. Un release canary para una API determinística a menudo observa la tasa de errores y la latencia p95. Un release canary para un agente debería observar esos más la completación de tareas, conteo de llamadas a herramientas, tasa de escalamiento, tasa de corrección de usuario, tasa de fallos de retrieval, y costo por resultado exitoso. Los IDs de revisión deberían aparecer en traces, logs, registros de evaluación y bundles de feedback de usuario. Si solo registras el nombre del endpoint, no sabrás qué versión del agente causó una regresión.
La actualización de Priority PayGo del 14 de mayo añade el lado de costo y latencia de la historia. Provisioned Throughput es lo mejor cuando conoces el tráfico y puedes comprometerte. Standard PayGo es flexible pero puede tener rendimiento más variable. Priority PayGo se sitúa entre ellos: rendimiento más consistente que el consumo estándar sin el compromiso inicial. Para agentes en producción, eso se mapea a cargas de trabajo que son importantes pero con ráfagas: triaje de soporte al cliente, asistentes de investigación internos, ayudantes de incidentes, y agentes de workflow que disparan durante horas de negocio o interrupciones.
La recomendación para builders es pensar en estos dos lanzamientos juntos. Usa revisiones y división de tráfico para hacer el cambio de comportamiento seguro. Usa Priority PayGo donde la varianza de latencia haría que el rollout se viera peor de lo que es. Si una nueva revisión de agente es más lenta porque la plataforma está bajo carga variable, puedes maldiagnosticar una regresión de modelo o prompt. Si una nueva revisión realmente aumenta las llamadas a herramientas o la profundidad de retrieval, Priority PayGo no ocultará el perfil de costo; todavía necesitas métricas por revisión. El dashboard de rollout mínimo útil debería mostrar revisión, proporción de tráfico, latencia, costos de modelo/herramientas, errores de herramientas, escalamiento humano y éxito de tareas.
[34:00] API de Gemini Interactions — de outputs planos a una línea de tiempo steps tipada
La guía de cambio disruptivo de la API de Interactions de Google es una migración de esquema con implicaciones más grandes de diseño de agentes. La forma antigua devolvía un array outputs plano. La nueva forma devuelve un array steps con discriminadores de tipo. Para una solicitud simple, aún puedes tomar el último chunk de texto y continuar. Pero para agentes de larga duración, agentes de investigación, agentes que usan herramientas, y llamadas de herramientas asíncronas futuras, una línea de tiempo es la abstracción correcta. Un turno no es solo la respuesta final; es entrada del usuario, salida del modelo, actividad de herramienta, estado intermedio, y potencialmente eventos de steering.
La guía también cambia la configuración de salida. En lugar de response_mime_type, los controles de salida se mueven a un response_format polimórfico. Eso reduce el número de campos ad-hoc en los que los clientes necesitan hacer branching y le da a la API espacio para añadir modos estructurados sin hacer crecer una pila de parámetros de solicitud no relacionados. Para mantenedores de SDK, esto es un problema de generación de tipos y compatibilidad. Para builders de apps, es un problema de persistencia: actualiza lectores de respuesta, fixtures, tests y esquemas de base de datos que asumían que outputs[-1].text era la respuesta canónica.
El detalle de control de migración es el header de request Api-Revision. Eso le da a los equipos una forma de fijar el comportamiento durante la migración en lugar de descubrir la fecha de eliminación a través de fallos en producción. La guía dice que el esquema legacy se elimina el 8 de junio, así que el plan práctico es: añade soporte de lectura dual, almacena objetos de interacción crudos durante la migración, actualiza resúmenes y herramientas de replay para entender steps, y ejecuta un pequeño conjunto de transcripciones antiguas a través del nuevo parser. Si tus logs de agentes se usan para evals, soporte o auditoría, no descartes los tipos de paso solo para mantener una forma antigua de solo texto.
La razón por la que esto merece un segmento del episodio es la dirección futura que señala. Google dice que la nueva forma de API soporta capacidades futuras como la dirección en pleno vuelo y las llamadas de herramientas asíncronas. Estas características necesitan una línea de tiempo de eventos estructurada. Si tu cliente colapsa la nueva línea de tiempo de vuelta a una sola cadena inmediatamente, serás técnicamente compatible pero arquitectónicamente rezagado. Trata la migración como una oportunidad de hacer que los rastros del agente sean de primera clase: cada paso obtiene un ID, un tipo, marcas de tiempo, contenido, metadatos de herramientas y enlace a la interacción. Así es como depuras un agente que cambia de rumbo a mitad de un trabajo.
[43:00] Cierre — qué actualizar y qué vigilar
La prioridad de actualización es clara. Si operas OpenClaw, prueba v2026.5.12 contra tus canales, perfiles de Codex/OpenAI, clientes de gateway, comandos de navegador, instalaciones de plugins y mutaciones de configuración. Si operas Hermes, prueba las nuevas rutas de instalación, proxy, latencia del navegador, diagnósticos y verificador de mutación de archivos en un repositorio real en lugar de un prompt de prueba. Si usas agentes en segundo plano de Claude Code, actualiza y verifica que /bg, claude agents, configuraciones de MCP, ajustes, modos de permisos, modelos de respaldo y comportamiento de PowerShell sobrevivan al desanclar, despertar e inactivo.
Para constructores de plataformas, las revisiones de Gemini Enterprise Agent Platform y la división de tráfico son el patrón de producción a copiar: los agentes necesitan canarios, rollback, observabilidad consciente de revisiones y puertas de lanzamiento conscientes de costos. Para constructores de APIs, la migración de Interactions es un recordatorio de que las APIs de agentes se están convirtiendo en líneas de tiempo de eventos. Almacena los pasos. Conserva los metadatos de tipo. Construye el parser ahora, antes de que la fecha de eliminación convierta una limpieza de esquema en una interrupción del servicio.