Episode 51: OpenClaw 2026.5.12, Hermes Foundation, Controles

[00:00] Hook — a atualização começa com tamanho de instalação, resiliência de polling e agentes em segundo plano

OpenClaw v2026.5.12 é a primeira coisa a observar hoje porque muda as superfícies do host que decidem se uma stack de agentes é agradável de executar todos os dias: o que é instalado por padrão, como o Telegram sobrevive a travamentos do event-loop, como caminhos de mídia e MCP com autenticação Codex/OpenAI se comportam, como atualizações de plugins evitam travamentos, e como a entrega de respostas lida com cards rich-only e respostas de origem. Ao lado dele, Hermes Agent 2026.5.16 é uma grande versão de distribuição e runtime: Windows nativo está em beta inicial, pip install hermes-agent se torna real, cold start cai, chamadas de navegador CDP ficam dramaticamente mais rápidas, e acesso a provedores com OAuth pode ser exposto através de um proxy local compatível com OpenAI. Claude Code 2.1.143 e 2.1.142 adicionam controles de sessão em segundo plano e de plugins que importam quando agentes CLI estão fazendo trabalho real não supervisionado: habilitação/desabilitação de plugins com reconhecimento de dependências, custo de contexto projetado, isolamento de worktree em segundo plano, flags de MCP e configurações preservadas, padrões PowerShell, e limites em loops de stop-hook.

A história externa após a leitura do release é sobre o formato do rollout em produção. O Google Cloud agora permite que usuários do Gemini Enterprise Agent Platform criem revisões imutáveis de agentes e distribuam tráfego entre revisões ativas, enquanto Priority PayGo está geralmente disponível para latência mais previsível sem um contrato de throughput comprometido. Então fechamos com uma migração de schema que desenvolvedores não devem deixar para a última semana: a Interactions API do Google está substituindo outputs planos por uma timeline de steps tipada e consolidando a configuração de saída sob response_format.

[03:00] Leitura de releases da stack de agentes — OpenClaw v2026.5.12, Hermes Agent 2026.5.16 e Claude Code 2.1.143/2.1.142

OpenClaw v2026.5.12 não é um release de feature única com destaque; é um release de qualidade do host. A primeira mudança visível para o operador é o formato das dependências. Bedrock, Bedrock Mantle, Slack, sandbox OpenShell, Anthropic Vertex, WhatsApp e pacotes relacionados são movidos para fora do runtime principal para que uma instalação puxe apenas o que precisa. Isso importa porque hosts de agentes envelhecem mal quando provedores opcionais se tornam silenciosamente cones de dependência obrigatórios. Instalações mais enxutas significam menos falhas de build específicas de plataforma, menor raio de impacto de atualização, e menos tempo depurando um provedor que você nunca habilitou.

O segundo grupo de mudanças é sobre resiliência de canal. O polling do Telegram muda para um worker isolado com spool local durável, então um travamento do event-loop principal tem menos probabilidade de soltar ou atrasar mensagens recebidas. O release também preserva formatação HTML renderizada em anúncios lazy cron, pula mídia de grupo não mencionada antes do download quando mention-gating está ativo, e exclui bolhas de rascunho que são apenas progresso de ferramenta antes de rotacionar para uma resposta real. A receita prática para operadores é simples: após atualizar, teste uma resposta em stream, um anúncio agendado ou estilo cron, um caso extremo de mídia de grupo, e umaturno interrompido. Este release está tentando fazer a camada de mensagens se comportar como um transporte, não como um efeito colateral frágil de UI.

Os caminhos do Codex e OpenAI são a outra grande razão para atualizar o OpenClaw. Ferramentas de mídia com suporte de perfil de autenticação permanecem disponíveis quando credenciais OpenAI vivem no store de perfil de autenticação do agente em vez do ambiente. Erros de refresh OAuth do Codex são classificados mais claramente, falhas de refresh de app-server de alta confiança não colapsam mais em falhas brutas de runtime, e modelos de agente OpenAI selecionáveis são tratados como requisitos de runtime do Codex mesmo quando a config primária é Anthropic. O release também mantém isolamento de CODEX_HOME por agente sem reescrever HOME por padrão, o que é a diferença entre credenciais Codex isoladas e quebra de descoberta de user-home de subprocessos ordinários. Para desenvolvedores executando hosts mistos Claude/OpenAI/Codex, o ponto é menos loops de reautenticação falsos e menos falhas de troca de modelo.

OpenClaw também aperta a mecânica de plugins e gateway. Instalações de plugins preservam peer dependencies, lidam com pnpm 11, restauram um subcaminho de SDK de memória depreciado para plugins companion, escaneiam pontos de entrada de runtime mais estreitamente, descobrem plugins de provedor através de credenciais de setup estruturadas, e preservam registros de instalação através de limpeza do doctor. Gateway e histórico de sessão agora carregam números de sequência de transcript monotônicos e emitem frames explícitos de deltaText e replace para que clientes SDK não precisem fazer diff de saída de assistente localmente. Respostas rich-only, cards, botões e respostas de message-tool-only são tratados como conteúdo real de saída em vez de serem descartados como vazios. Se você está construindo sobre o protocolo gateway, este é o tipo de release onde suposições de cliente devem ser testadas contra cards, mídia, respostas de origem e reconexões, não apenas texto simples.

O endurecimento de segurança e configuração também é concreto. Raízes de perfil de usuário Windows são incluídas em raízes de home bloqueadas do sandbox para que pastas com credenciais sejam negadas mesmo quando HOME aponta para outro lugar. Credenciais de provedor são resolvidas através de referências secretas estruturadas em vez de strings amplas que parecem variáveis de ambiente, reduzindo inferência acidental de credenciais. Mutações semânticas de configuração são serializadas e retentadas centralmente, o que reduz risco de clobber quando comandos concorrentes editam config. Comandos CLI de navegador explicitamente solicitam o escopo existente de gateway admin do operador, evitando ruído de loop de aprovação. Estas não são mudanças glamorosas, mas são exatamente as mudanças que impedem um host de agente de se tornar um acidente de credenciais ou um mistério de tempo de atualização.

Hermes Agent 2026.5.16 é a história do runtime mais amplo. O release nomeia suporte nativo Windows como beta inicial, com instalador PowerShell, caminhos nativos de subprocess e PTY, gerenciamento de processos baseado em taskkill, auto-instalação de MinGit, detecção de stub Python, preservação de Ctrl+C, e muitos fixes exclusivos do Windows. Também envia uma wheel PyPI real: pip install hermes-agent && hermes. Isso muda o onboarding porque um usuário não precisa mais clonar um repositório ou executar um instalador shell customizado apenas para testar o agente. O framework de dependência lazy e o verificador advisory são igualmente importantes: bibliotecas de provedores pesados diferem para primeiro uso, fallbacks de instalador passam por camadas de extras, e escaneamentos de install/update procuram versões inseguras.

Os números de performance no Hermes merecem destaque porque mapeiam diretamente a sensação diária do agente. O release diz que cold start cai em aproximadamente dezenove segundos através de caching de skills, imports lazy, lookup de modelo disk-cache-first, bibliotecas de provedores adiadas, e checks paralelos de doctor. hermes tools All-Platforms cai de cerca de catorze segundos para menos de um segundo e meio. Avaliações de browser_console ficam dramaticamente mais rápidas ao reutilizar o WebSocket CDP persistente do supervisor em vez de gerar uma sessão DevTools fresca por chamada. Para agentes pesados em navegador, CDP persistente não é um detalhe de implementação; muda se um loop de debugging parece instantâneo ou constantemente espera pelo setup do navegador.

Hermes também adiciona capacidades que o tornam mais um hub. hermes proxy expõe provedores autenticados com OAuth através de um endpoint local compatível com OpenAI, então ferramentas como Codex, Aider, Cline, ou extensões de editor podem conversar com Claude Pro, ChatGPT Pro, SuperGrok, ou contas similares com OAuth através de uma interface que elas já entendem. Caching de prompt Claude de uma hora cross-session reduz custo de prefixo repetido através de resumes e novas sessões. vision_analyze agora passa pixels para modelos com capacidade de visão em vez de reduzir a imagem a texto. Uma ferramenta unificada video_generate suporta provedores de vídeo plugáveis. computer_use obtém um backend de driver cua não-Anthropic-capable. /handoff move a sessão ao vivo para outro modelo, persona ou perfil enquanto preserva contexto e histórico de ferramentas. A questão operacional após este release não é apenas, "O Hermes roda?" É, "Quais ferramentas locais devem apontar para o Hermes como ponte de provedores?"

Para agentes de escrita de código, Hermes adiciona dois guardrails especialmente relevantes. Diagnósticos semânticos LSP rodam após write_file e patch, então o agente vê erros de language-server no arquivo alterado antes que o trabalho subsequente continue. Um footer verificador de mutação de arquivo por turno informa ao agente o que realmente mudou no disco após um turno que escreveu arquivos. Isso é uma resposta direta a um modo de falha comum: o modelo acredita que editou um arquivo, mas o patch errou, sobrescreveu a região errada, ou produziu um erro de tipo silencioso. Diagnósticos mais resumos de mutação não substituem testes, mas encurtam o loop antes dos testes rodarem.

Claude Code 2.1.143 e 2.1.142 completam o lado do agente CLI. Aplicação de dependências de plugins significa que desabilitar um plugin agora recusa quando outro plugin habilitado depende dele, com uma dica de cadeia de desabilitação, e habilitar um plugin força habilitação de dependências transitivas. O painel de navegação do marketplace de plugins mostra custo de contexto projetado por turno e por invocação, o que ajuda operadores a ver quando um plugin não está apenas instalado mas é caro. Uma nova configuração worktree.bgIsolation: "none" permite que sessões em segundo plano editem a cópia de trabalho diretamente quando worktrees Git são impraticáveis, enquanto limpeza de worktree não recai mais para remoção destrutiva se git worktree remove falhar.

Os fixes de agente em segundo plano são os que devem ser testados em trabalho real. Sessões em segundo plano preservam modelo e nível de esforço após acordar de ociosidade. /bg preserva config de MCP, configurações, add-dir, plugin-dir, config estrita de MCP, modelo de fallback, e disponibilidade de bypass-permission através de respawn ou detach. Agentes Claude aceitam flags para add-dir, configurações, config de MCP, diretórios de plugins, modo de permissão, modelo, esforço, e padrões de skip-permission, e sessões em segundo plano lançadas do dashboard respeitam o modo de permissão padrão configurado. Chamadas de ferramentas MCP HTTP e SSE agora respeitam o timeout configurado em vez de serem limitadas a sessenta segundos. Stop hooks que continuam bloqueando agora terminam com um aviso após oito bloqueios consecutivos a menos que sobrescrito. Em resumo: menos workers em segundo plano perdem seu ambiente, permissões, modelo, ou chamadas MCP de longa duração.

[24:00] Gemini Enterprise Agent Platform — revisões, divisão de tráfego e Priority PayGo

A atualização de 15 de maio do Gemini Enterprise Agent Platform do Google Cloud adiciona uma primitiva de deployment que equipes de agentes precisam: revisões imutáveis de agentes com divisão de tráfego. Antes desse tipo de feature, um deployment de agente frequentemente se comporta como um endpoint de serviço mutável. Você atualiza prompt, ferramentas, configurações de modelo, roteamento ou código de container; o endpoint muda; e rollback depende de quão disciplinado seu processo de release foi. Revisões dão a você um artefato de deployment nomeado. Divisão de tráfego permite mover uma porcentagem controlada de tráfego de produção para a nova versão enquanto a versão antiga ainda serve a maioria dos usuários.

Isso soa como deployment de software padrão, mas importa mais para agentes porque uma pequena mudança pode alterar escolha de ferramentas, latência, comportamento de recusa, uso de memória, ou perfil de alucinação. Um release canary para uma API determinística frequentemente observa taxa de erro e latência p95. Um release canary para um agente deve observar esses mais conclusão de tarefa, contagem de chamadas de ferramenta, taxa de escalação, taxa de correção de usuário, taxa de falha de recuperação, e custo por resultado bem-sucedido. IDs de revisão devem aparecer em traces, logs, registros de avaliação e bundles de feedback do usuário. Se você apenas loga o nome do endpoint, não saberá qual versão do agente causou uma regressão.

A atualização de Priority PayGo de 14 de maio adiciona o lado de custo e latência da história. Provisioned Throughput é melhor quando você conhece o tráfego e pode se comprometer. Standard PayGo é flexível mas pode ter performance mais variável. Priority PayGo fica entre eles: performance mais consistente que o consumo padrão sem o comprometimento antecipado. Para agentes em produção, isso mapeia para cargas de trabalho que são importantes mas bursty: triagem de suporte ao cliente, assistentes de pesquisa internos, ajudantes de incidentes, e agentes de workflow que disparam durante horários de expediente ou interrupções.

A recomendação para desenvolvedores é pensar nesses dois releases juntos. Use revisões e divisão de tráfego para tornar mudanças de comportamento seguras. Use Priority PayGo onde variância de latência tornaria o rollout pareça pior do que é. Se uma nova revisão de agente é mais lenta porque a plataforma está sob carga variável, você pode diagnosticar erroneamente uma regressão de modelo ou prompt. Se uma nova revisão realmente aumenta chamadas de ferramenta ou profundidade de recuperação, Priority PayGo não esconderá o perfil de custo; você ainda precisa de métricas por revisão. O dashboard de rollout mínimo útil deve mostrar revisão, share de tráfego, latência, custos de modelo/ferramentas, erros de ferramentas, escalação humana e sucesso de tarefa.

[34:00] Gemini Interactions API — de outputs planos para uma timeline de steps tipada

O guia de breaking change da Interactions API do Google é uma migração de schema com implicações maiores de design de agentes. O formato antigo retornava um array plano de outputs. O novo formato retorna um array de steps com discriminadores de tipo. Para uma requisição simples, você ainda pode pegar o último pedaço de texto e seguir em frente. Mas para agentes de longa duração, agentes de pesquisa, agentes que usam ferramentas, e chamadas de ferramentas assíncronas futuras, uma timeline é a abstração certa. Um turno não é apenas a resposta final; é entrada do usuário, saída do modelo, atividade de ferramenta, estado intermediário, e potencialmente eventos de steering.

O guia também muda a configuração de saída. Em vez de response_mime_type, controles de saída se movem para um response_format polimórfico. Isso reduz o número de campos avulsos que clientes precisam ramificar e dá à API espaço para adicionar modos estruturados sem crescer uma pilha de parâmetros de requisição não relacionados. Para mantenedores de SDK, isso é uma questão de geração de tipos e compatibilidade. Para desenvolvedores de apps, é uma questão de persistência: atualize leitores de resposta, fixtures, testes e schemas de banco que assumiam que outputs[-1].text era a resposta canônica.

O detalhe de controle de migração é o header de requisição Api-Revision. Isso dá às equipes uma forma de fixar comportamento durante a migração em vez de descobrir a data de remoção através de falhas em produção. O guia diz que o schema legado é removido em 8 de junho, então o plano prático é: adicione suporte a dual-read, armazene objetos de interação crus durante a migração, atualize resumos e ferramentas de replay para entender steps, e rode um pequeno conjunto de transcripts antigos pelo novo parser. Se seus logs de agentes são usados para evals, suporte ou auditoria, não descarte tipos de step apenas para manter um formato antigo de apenas texto.

O motivo pelo qual isso vale um segmento de episódio é a direção futura que ele sinaliza. O Google diz que o novo formato de API suporta capacidades futuras como controle em pleno voo e chamadas de ferramentas assíncronas. Esses recursos precisam de uma linha do tempo de eventos estruturada. Se o seu cliente colapsar a nova linha do tempo de volta em uma única string imediatamente, você será tecnicamente compatível, mas arquitetonicamente defasado. Trate a migração como uma oportunidade para tornar os traces de agentes elementos de primeira classe: cada passo recebe um ID, um tipo, timestamps, conteúdo, metadados de ferramenta e link com a interação. É assim que você depura um agente que muda de rumo no meio de um trabalho.

[43:00] Encerramento — o que atualizar e o que observar

A prioridade de atualização é clara. Se você opera OpenClaw, teste a v2026.5.12 contra seus canais, perfis Codex/OpenAI, clientes gateway, comandos do navegador, instalações de plugins e mutações de configuração. Se você opera Hermes, teste os novos caminhos de instalação, proxy, latência do navegador, diagnósticos e verificador de mutação de arquivo em um repositório real em vez de um toy prompt. Se você usa background agents do Claude Code, atualize e verifique se /bg, claude agents, configurações MCP, configurações, modos de permissão, modelos de fallback e comportamento do PowerShell sobrevivem ao desanexamento, despertar e ociosidade.

Para construtores de plataforma, as revisões e o split de tráfego do Gemini Enterprise Agent Platform são o padrão de produção a copiar: agentes precisam de canaries, rollback, observabilidade com consciência de revisão e portões de rollout com consciência de custo. Para construtores de API, a migração de Interactions é um lembrete de que APIs de agentes estão se tornando linhas do tempo de eventos. Armazene os passos. Mantenha os metadados de tipo. Construa o parser agora, antes que a data de remoção transforme uma limpeza de schema em uma outage.