Episode 59: Hermes Agent 0.15.x, Codex 0.135, Claude Code

OpenClaw v2026.5.27 continua como a baseline estável do OpenClaw enquanto v2026.5.28 é um item beta a observar, e o Hermes Agent v2026.5.29.2 é o novo evento de release estável do agent-stack. Codex 0.135, Claude Code 2.1.157 e Opus 4.8 completam o contexto de release do EP059. O Hermes faz a maior movimentação na plataforma: orquestração kanban, execução worktree-por-tarefa, tarefas agendadas, busca mais rápida em sessões, defesa de promptware, skill bundles, seleção de catálogo MCP, mensagens ntfy e correções de acompanhamento para dashboards loopback, modo inseguro do Docker, resolução de PATH MCP, mídia .md e empacotamento de plugins. O Codex adiciona melhores diagnósticos, status remoto, perfis de permissão nomeados, presets de sandbox do SDK, suporte a instalação não interativa e confiabilidade do TUI/runtime. O Claude Code adiciona Opus 4.8, workflows dinâmicos, carregamento automático de plugins .claude/skills, scaffolding de plugins, troca de worktree, opções de detalhe de telemetria e limpeza de sessões em background. Então o episódio avança para política de workspace-agent, MCP de runtime de browser, grafos de code-flow, telemetria de uso e mídia gerada por agentes.

[00:00] Abertura: agent stacks ficam mais fáceis de inspecionar O tema útil hoje é a inspectability. O Hermes está tornando a orquestração visível. O Codex está nomeando mais do runtime através de doctor, /status, perfis e presets de sandbox do SDK. O Claude Code está colocando workflows, plugins, esforço, worktrees e sessões em background em trilhos mais claros. Os workspace agents da OpenAI estão ganhando controles de política em torno de publicação, Slack, fala e ações de apps. A faixa do projeto mantém a mesma forma: estado do browser, estado de code-flow, custo de uso e renderização de mídia tudo se tornam coisas que um agente pode consultar em vez de adivinhar.

[03:00] Release readout do OpenClaw e Hermes Agent O OpenClaw começa este bloco de release como um check de estabilidade. A tag estável mais recente continua sendo v2026.5.27, o que significa que o trabalho de content-boundary, recuperação do app-server do Codex, catálogo de provedores, embedding-provider, parâmetro thinking do VLLM, channel-delivery e metadata-cache do release estável anterior ainda é a baseline. A linha mais recente v2026.5.28 está visível como material beta, e vale a pena observar porque as notas beta apontam para as superfícies exatas que stacks de agentes locais se importam: recuperação de app-server, separação de cwd/workspace de subagentes, isolamento de contexto de hooks, release de timeout lock, evitar restart de dados obsoletos, identidade de canal, avisos de ferramentas recuperadas do Discord, caminhos de delivery do Slack e Telegram, rejeição de callback malformado, adições de provedores e validação de timeout do browser. Porque é beta, pertence na faixa de observação em vez da faixa de upgrade estável.

O Hermes Agent tem o maior release estável de agent-stack do dia. A linha 0.15 move muita maquinaria para superfícies de produtos core. O Kanban não é mais um quadro fino em torno de prompts; ele cresce funcionalidades de orquestração como auto-decomposição, topologia de swarm, tarefas agendadas, execução worktree-por-tarefa e overrides de modelo por-tarefa. Isso importa porque trabalho multi-agente precisa de atribuição durável, isolamento e recuperação. Um quadro só é útil se o trabalho pode ser dividido, assumido, retentado e inspecionado sem se transformar em uma pilha solta de transcripts de chat.

A forma do codebase também mudou. O caminho grande run_agent.py foi dividido em módulos menores, cold start melhorou novamente e session_search ficou dramaticamente mais rápido e gratuito. O valor prático é simples: quando um agente local tem muitas sessões, muitas ferramentas e muito trabalho lembrado, busca e custo de inicialização se tornam parte do workflow. Busca lenta faz a memória parecer falsa. Busca rápida faz trabalho anterior ficar acessível.

O Hermes também adiciona defesa de promptware, suporte ao Bitwarden Secrets Manager, skill bundles, um TUI multi-sessão Ink, dois provedores de geração de imagens, um catálogo MCP aprovado pela Nous com um seletor interativo, mensagens ntfy e integração mais profunda com xAI. Os releases de acompanhamento também são importantes. O loop de reload 401 do loopback do dashboard foi corrigido. O modo inseguro do Docker se torna uma opt-in explícita em vez de inferido do bind host. A resolução de PATH de comandosbare MCP melhora. A entrega de mídia Markdown está restaurada. O empacotamento agora inclui manifests de plugins bundled em distribuições wheel e source.

[12:00] Codex 0.135 torna falhas mais diagnosticáveis O Codex 0.135 não é o release mais barulhento, mas melhora a superfície de suporte do dia a dia. O codex doctor agora reporta diagnósticos mais ricos de ambiente, Git, terminal, app-server e inventário de threads. Esse tipo de comando importa porque falhas de agentes de codificação são frequentemente ambientais: o shell helper está errado, o app-server está obsoleto, o transporte remoto está desalinhado, o estado do repo é surpreendente ou o terminal está corrompendo a saída.

O /status remoto agora mostra detalhes de conexão e versão do servidor quando o TUI está conectado via transporte remoto. O /permissions entende perfis de permissão nomeados e exibe perfis customizados. Builds empacotados podem descobrir o zsh helper patched bundled através dos alvos macOS e Linux suportados. O SDK Python adiciona presets amigáveis de Sandbox para APIs de thread e turn. Scripts de instalação suportam instalação não interativa através de CODEX_NON_INTERACTIVE=1.

As correções também são práticas: tabelas markdown e listas multilinha renderizam de forma mais legível, saída do TUI é mais estável no macOS e Zellij, completion de slash-commands preserva texto de draft, sessões mais antigas de tmux e iTerm em modo controle mantêm comportamento normal de Ctrl-C, ferramentas de extensão surface errors melhor, anexos remotos anexam corretamente, runtime do app-server respeita escolhas de modelo e ferramentas MCP desconectadas param de aparecer como rodando. O release é sobre fazer execuções do Codex local e remoto mais fáceis de explicar quando se comportam mal.

[19:00] Claude Code 2.1.157 e Opus 4.8 A faixa mais recente do Claude Code se moveu através de uma onda de release do Opus 4.8. A versão 2.1.154 adiciona suporte ao Opus 4.8, workflows dinâmicos, mudanças de modo rápido, atualizações de label de esforço, dispatch de shell em background de claude agents, execução de streaming tool padrão, variáveis de ambiente de sessão stdio MCP e rendering de pending-approval para servidores .mcp.json. A peça de workflow dinâmico é a parte mais importante: permite que o Claude Code organize esforços maiores através de agentes em background e status de workflow em vez de fazer um turno foreground carregar o trabalho inteiro.

A versão 2.1.156 corrige um problema de thinking-block no Opus 4.8. A versão 2.1.157 então transforma comportamento de plugins e worktree em um caminho mais direto. Plugins em diretórios .claude/skills são carregados automaticamente. claude plugin init faz scaffolding de um novo plugin. O autocomplete de /plugin melhora. claude agents honra o campo de agente configurado em settings.json. EnterWorktree pode trocar entre worktrees gerenciadas pelo Claude. A telemetria de decisão de tools pode incluir parâmetros de tools quando o usuário opta por detalhes. Worktrees completadas são deixadas desbloqueáveis para que a limpeza possa podá-las.

O release do Opus 4.8 da Anthropic é o lado de modelo do mesmo movimento. Ele está posicionado para codificação mais difícil, tarefas agentic e trabalho profissional, com preço regular inalterado em relação ao Opus 4.7 e modo rápido mais barato do que pricing de modo rápido anterior. A avaliação correta não é apenas se um benchmark se moveu. É se o modelo mais a camada de workflow pode executar uma tarefa maior, fazer melhores perguntas, evitar wrongness silenciosa e limpar sua worktree depois.

[27:00] Workspace agents precisam de política porque agora vivem em canais compartilhados As notas de release do workspace-agent da OpenAI mostram outra direção: agentes estão se tornando atores de workspace compartilhado. Workspace agents podem usar GPT-5.5 com controles de esforço de reasoning. Admins podem controlar quais roles publicam agentes em um diretório compartilhado. Setup guiado ajuda usuários a configurar agentes. Agentes podem produzir arquivos de áudio. Agentes de Slack podem responder a mensagens de acompanhamento relevantes em uma thread após a menção inicial. Builders podem definir salvaguardas para ações em cada app habilitado.

Esses detalhes importam porque agentes compartilhados têm riscos diferentes de chat pessoal. Um agente em thread do Slack só pode ser útil se sabe quando um acompanhamento é relevante e quando ficar quieto. Um agente de saída de fala precisa de expectativas de armazenamento, revisão e distribuição. Um diretório compartilhado precisa de permissões de publicação, não apenas uma pilha de prompts engenhosos. Salvaguardas de apps precisam ser configuradas antes do agente obter ferramentas com capacidade de escrita.

Acesso remoto do Codex e access tokens encaixam no mesmo padrão. A máquina que possui os arquivos e credenciais permanece como limite de execução, enquanto telefones, scripts e identidade de workspace gerenciada se tornam superfícies de controle. Essa é a arquitetura estável para trabalho de agentes: rode perto dos dados, supervisione a partir do canal que se encaixa no momento e mantenha identidade com escopo.

[34:00] Browser runtime MCP supera adivinhação a partir do source O Chrome DevTools MCP é um bom projeto a observar porque agentes de frontend precisam de evidência de browser. Um modelo pode ler arquivos de source e ainda perder o problema de runtime: uma requisição de rede falhou, um erro de console aconteceu após hydration, uma regra CSS foi sobrescrita, um page id mudou ou um problema de performance só aparece uma vez que o app roda. Um MCP bridge baseado em DevTools permite ao agente inspecionar o estado real do browser.

O release atual é uma pequena correção de page-id CLI, mas a forma do projeto é maior que esse patch. O MCP pode expor superfícies de DOM, console, network, runtime e performance de uma forma que agentes de codificação podem perguntar. Isso é diferente de visual computer use. Screenshots mostram o que o usuário vê; estado do DevTools explica por que o browser se comportou assim. Para apps locais, o melhor loop é evidência primeiro: reproduza, inspecione, patch, verifique.

[39:00] Code flow, custo de uso e mídia gerada se tornam legíveis para agentes O radar do projeto tem três superfícies mais úteis. O CodeGraph dá aos agentes um grafo de conhecimento de código local pré-indexado. Seu release mais recente melhora resolução de implementação Go gRPC, desprioriza arquivos gerados, trata quebras de trace de dynamic-dispatch incluindo source do endpoint mais callers e callees, melhora seleção de endpoint multi-módulo e faz inline de contexto de routing para projetos pequenos. Isso é o que um agente de codificação precisa quando uma pergunta é sobre fluxo, não apenas correspondências de texto.

O ccusage ataca um ponto cego diferente: uso e custo. Seu release atual adiciona rates do Opus 4.8, fallback pricing, avisos de preço faltante, explicações de telemetria do Copilot, correções de custo do opencode e melhorias de release/install. À medida que workflows em background e execuções multi-agente se tornam normais, telemetria de uso para de ser curiosidade contábil. Ela se torna input de scheduler. Um sistema que conhece custo de modelo, pricing faltante e gaps de telemetria pode escolher um modelo menor, esperar uma janela de orçamento ou parar antes de uma tarefa se tornar desperdiçadora.

O Hyperframes é a contrapartida de mídia. Ele trata vídeo como source HTML mais runtime renderizável, o que torna mídia gerada mais inspectable. Agentes podem editar source, renderizar, inspecionar, fazer patch de comportamento de playback e manter a cena de mídia em controle de versão. Isso é mais confiável do que tratar um MP4 final como o primeiro artefato real.

[46:00] Fechamento A fila prática do EP059 está clara. Hermes é o lançamento principal de plataforma para estudar. Codex é melhor em mostrar o ambiente e as permissões que está realmente usando. Claude Code está movendo workflows, plugins, esforço e worktrees para o primeiro plano. Opus 4.8 muda o cenário dos modelos de codificação de alto nível. Agentes de Workspace precisam de política porque agora operam em canais compartilhados. Browser MCP, grafos de código, telemetria de uso e mídia com controle de versão são a camada de ferramentas que torna o trabalho de agentes menos misterioso. A melhor stack não é aquela com mais agentes executando. É aquela onde cada agente pode ver o runtime, conhecer o caminho do código, entender o orçamento e deixar evidências.