Episode 56: OpenClaw, Codex, Claude Code, Hermes, Appshots

OpenClaw v2026.5.20 lidera porque cambia las superficies en las que realmente depende un agente: verificaciones de políticas, secretos más seguros, enrutamiento de proveedores, salida de cron, finalización de subagentes, contexto de voz y tiempos de espera de imágenes. Hermes v2026.5.16 tiene su propio segmento práctico porque cambia la instalación, proxy local, autenticación de proveedores, velocidad del navegador, mensajería, diagnósticos LSP, verificación de cambios de archivos, uso de computadora y flujos de trabajo adyacentes a Codex/Claude. Codex rust-v0.133.0 agrega almacenamiento de objetivos, preparación de control remoto, perfiles de permisos, descubrimiento de plugins y hooks de ciclo de vida. Claude Code 2.1.148 sigue una actualización más grande del agente de terminal con sesiones ancladas, revisión de código, paginación MCP, aplicación de políticas empresariales, reparaciones de Windows, reutilización de permisos y confiabilidad de Bash. Después de eso, el episodio avanza rápidamente a través de Appshots, túneles MCP, ejecución durable de agentes, infraestructura de sustrato de agentes, migración de Antigravity, uso de computadora con modelos pequeños, agentes de datos, fortalecimiento de claves API y herramientas de planificación de Copilot.

[00:00] Abre con los lanzamientos que cambian el trabajo diario de los agentes Comienza con las cuatro herramientas que los constructores probablemente usarán esta semana: OpenClaw, Codex, Claude Code y Hermes. Mantén el primer minuto dinámico: la pila ya no es solo "consultar a un modelo"; es políticas, autenticación, objetivos, plugins, proxies locales, estado del navegador, mensajería, sesiones en segundo plano y aprobaciones. Promete una acción concreta de "prueba ahora" para cada historia principal.

[03:00] Ruta de actualización de OpenClaw, Codex y Claude Code OpenClaw: ejecuta openclaw doctor, inspecciona los hallazgos de políticas, verifica las advertencias de secretos en texto plano, confirma que los archivos de tokens no están simbolizados, prueba el enrutamiento de proveedores de OpenRouter, ejecuta una tarea cron que termine con advertencias diagnósticas y ejecuta una tarea de subagente que termine después de que la sesión principal haya avanzado. Trata el lanzamiento como un cambio de host-runtime, no solo como un cambio de modelo de chat: políticas, configuración, autenticación, selección de proveedor, ejecución programada, entrega de subagentes, sanitización de navegador/imágenes, contexto de voz, entrega de mensajes, comportamiento de tiempos de espera, diagnósticos y recuperación necesitan una prueba nombrada cada uno. Codex: crea una tarea orientada a objetivos, prueba codex remote-control, lista los perfiles de permisos, inspecciona la salida de descubrimiento de plugins y decide qué eventos del ciclo de vida deben registrarse. El movimiento arquitectónico es estado durable de objetivos, perfiles de permisos explícitos, inventario de plugins inspeccionables y hooks de extensión alrededor de la ejecución de herramientas, turnos, subagentes y aprobaciones. Claude Code: prueba una sesión en segundo plano anclada, /code-review en un diff real, paginación MCP contra un servidor con más de una página, reutilización de permisos en segundo plano, rutas de shell de Windows si es relevante, y la ruta de regresión de Bash. Los modos de falla a observar son concretos: recursos MCP faltantes después de la página uno, una sesión en segundo plano pidiendo nuevamente un permiso ya concedido, política de inicio de sesión empresarial siendo evadida a través de otra ruta de proveedor, o comandos de shell reportando el estado de salida incorrecto. Captura el comportamiento de API y SDK, arquitectura de runtime, notas de evaluación, evidencia de benchmarks, señales de observabilidad, límites de seguridad y privacidad, configuración de despliegue, latencia, throughput, costo, memoria, estado del programador, logs, IDs de traza, forma de solicitud/respuesta y comportamiento de reintento mientras la tarea es pequeña. El movimiento útil de configuración es una matriz de verificación pequeña: una acción de canal, una ejecución programada, una llamada de modelo enrutada por proveedor, una aprobación de herramienta, una consulta de inventario MCP, una operación de navegador/imagen y un subagente delegados.

[10:00] Hermes Agent como el benchmark local práctico Hermes merece un segmento separado. El lanzamiento Foundation agrega la ruta de instalación fácil de PyPI, hermes proxy, proveedores respaldados por OAuth, SuperGrok, búsqueda de X, Teams, instalaciones lazy, lanzamiento más rápido, aceleración de consola de navegador, LINE, SimpleX, /handoff, botones nativos de clarificación, backfill de Discord, visión de píxeles, verificación de mutación de archivos, diagnósticos LSP, generación de video conectable, uso de computadora más amplio, integración con Zed ACP Registry, enrutamiento Pareto Code de OpenRouter, habilidades opcionales, eventos de aprobación de API y llamadas LLM del lado de plugins. Conviértelo en una ruta de prueba: instala o actualiza, ejecuta hermes doctor, inicia el proxy, apunta un cliente compatible con OpenAI a él, prueba una inspección de navegador, edita un archivo pequeño y observa la retroalimentación LSP, transfiere una sesión y prueba una ruta de botón de clarificación. El beneficio no es "usar cada característica"; es hacer de Hermes un benchmark más afilado para Codex, Claude, proveedores locales y superficies de chat.

[17:00] Codex Appshots y modo de objetivos Usa Appshots cuando un problema de UI o aplicación de escritorio sea más fácil de mostrar que describir. El paquete útil es captura de pantalla más texto disponible más objetivo durable. Las anotaciones de navegador hacen que la retroalimentación visual sea específica. El contexto JavaScript de solo lectura hace que la inspección sea más segura. El uso de computadora bloqueado es para tareas locales largas supervisadas donde el Mac puede bloquearse antes de que termine la ejecución. Prueba esto con un problema de UI: captura el estado malo, establece un objetivo, pide el cambio de código más pequeño, ejecuta la página y captura un segundo estado antes de aceptar el resultado.

[22:00] Túneles MCP seguros Usa túneles MCP seguros cuando una herramienta privada debe ser alcanzable por un agente sin abrir puertos de firewall entrantes. El túnel resuelve conectividad, no autorización. Antes de conectar un servidor MCP privado, define la lista de permisos de herramientas, vinculación de cuenta/proyecto, registro de auditoría, límite de confianza del servidor local y ruta de secretos. Evita convertir un túnel en un puente universal de red privada. Construye el primero como solo lectura y requiere aprobación humana antes de llamadas mutantes.

[27:00] Google Agent Executor y ejecuciones durable de agentes Agent Executor importa porque los agentes de larga ejecución necesitan registros de eventos, instantáneas, reconnect/backfill, actores aislados, estado de escritor único y trayectorias ramificables. Prueba mapear una tarea de agente actual en esas piezas: qué flujo de eventos existe, dónde se almacena el estado, cómo funciona el resume, cómo ramificar una ruta fallida y qué prueba queda después de la ejecución. Si el sistema no puede responder, el agente puede funcionar una vez pero aún no es lo suficientemente confiable para trabajos repetitivos de larga ejecución.

[32:00] GKE Agent Sandbox y Agent Substrate GKE Agent Sandbox y Agent Substrate apuntan a la forma de carga de trabajo de sistemas de agentes: sesiones aisladas, mucho tiempo inactivo, despertares rápidos, sandboxes con estado y uso bursty de herramientas. La prueba práctica es si los warm pools, instantáneas, gVisor y programación de actores reducen la latencia de activación sin ocultar estado y evidencia de depuración. Estima sesiones activas, sesiones inactivas, estado retenido, herramientas permitidas, latencia de despertar y costo por sesión útil.

[37:00] Migración de Antigravity CLI El uso gratuito/de consumidor de Gemini CLI deja de servir solicitudes el 18 de junio de 2026. Antigravity CLI se convierte en el objetivo de planificación. Audita cualquier tarea de Gemini CLI ahora: autenticación, configuración, habilidades, hooks, subagentes, plugins, trabajos asíncronos y contexto compartido de escritorio/CLI. Ejecuta un prompt existente a través de la nueva ruta antes del corte y registra qué cambió. La migración es más fácil mientras la ruta antigua aún responde.

[42:00] Microsoft MagenticLite y uso de computadora con modelos pequeños MagenticLite es útil porque empareja modelos más pequeños con un arnés, sandbox, aprobaciones y herramientas de navegador/archivos. La prueba no es si un modelo pequeño puede hacer todo. Es qué tareas se vuelven lo suficientemente baratas y confiables cuando el orquestador, modelo de navegador, puntos de aprobación y sandbox QEMU están diseñados juntos. Comienza con una verificación de panel de control limitada, llenado de formulario borrador, navegación con herramienta web conocida o informe local en sandbox.

[47:00] Google Data Agent Kit Data Agent Kit empaqueta acceso a datos como herramientas y habilidades configuradas para agentes de codificación. Úsalo cuando una tarea de datos necesita acceso gobernado a BigQuery, AlloyDB, Spanner, Cloud Storage, validación de consultas o verificaciones de deriva. La primera elección de diseño es el alcance: qué puede consultar el agente, qué puede escribir, cómo se almacenan las credenciales y qué debe resumirse en lugar de pegarse en el contexto.

[51:00] Claves API de Gemini y herramientas de planificación de Copilot Trata las claves API de Gemini como tokens bearer de pago. Crea proyectos independientes, restringe las claves a la API prevista, agrega restricciones de aplicación, almacena las claves del lado del servidor en Secret Manager, monitorea el conteo de solicitudes por ID de credencial y rota las claves que se dispersan. Luego usa la búsqueda semántica de problemas de Copilot antes de las ediciones de código: agrupa los problemas por modo de falla, plataforma o área de lanzamiento, y solo entonces entrega la tarea estrecha a un agente. Si Copilot Auto elige el modelo, registra el modelo para cambios de alto riesgo.

[55:00] Cierre Cierra con una cola concreta: actualiza OpenClaw/Codex/Claude Code, somete a Hermes a una prueba pequeña de proxy/navegador/LSP/handoff, captura un Appshot de Codex, diseña un túnel MCP con permisos antes de la conectividad, esboza estado durable para un agente de larga ejecución, migra una tarea de Gemini CLI hacia Antigravity, prueba una tarea de uso de computadora con modelo pequeño en un sandbox, define el alcance de una herramienta de agente de datos, protege las claves y usa búsqueda semántica de problemas antes de pedir a un agente de codificación que edite.