Episode 56: OpenClaw, Codex, Claude Code, Hermes, Appshots

OpenClaw v2026.5.20 lidera porque muda as superfícies das quais um agente realmente depende: verificações de política, segredos mais seguros, roteamento de provedores, saída de cron, conclusão de subagente, contexto de voz e timeouts de imagem. Hermes v2026.5.16 ganha seu próprio segmento prático porque muda instalação, proxy local, autenticação de provedor, velocidade do navegador, mensagens, diagnósticos LSP, verificação de alteração de arquivo, uso de computador e fluxos de trabalho Codex/Claude-adjacent. Codex rust-v0.133.0 adiciona armazenamento de objetivos, prontidão para controle remoto, perfis de permissão, descoberta de plugins e ganchos de ciclo de vida. Claude Code 2.1.148 segue uma atualização maior de agente de terminal com sessões fixadas, revisão de código, paginação MCP, aplicação de política empresarial, correções Windows, reutilização de permissão e confiabilidade do Bash. Depois disso, o episódio passa rapidamente por Appshots, túneis MCP, execução durável de agentes, infraestrutura de substrato de agente, migração Antigravity, uso de computador com modelos pequenos, agentes de dados, endurecimento de chaves de API e ferramentas de planejamento do Copilot.

[00:00] Abertura sobre os lançamentos que mudam o trabalho diário de agentes Comece com as quatro ferramentas que desenvolvedores mais provavelmente vão usar esta semana: OpenClaw, Codex, Claude Code e Hermes. Mantenha o primeiro minuto animado: a stack não é mais apenas "pergunte a um modelo"; é política, autenticação, objetivos, plugins, proxies locais, estado do navegador, mensagens, sessões em segundo plano e aprovações. Prometa uma ação concreta de "experimente agora" para cada história principal.

[03:00] Caminho de atualização do OpenClaw, Codex e Claude Code OpenClaw: execute openclaw doctor, inspecione as descobertas de política, verifique os avisos de segredo em texto simples, confirme que os arquivos de token não são symlinks, teste o roteamento de provedor OpenRouter, execute uma tarefa cron que termina com avisos de diagnóstico e execute uma tarefa de subagente que termina após a sessão pai ter avançado. Trate o lançamento como uma mudança de runtime do host, não apenas uma mudança de modelo de chat: política, configuração, autenticação, seleção de provedor, execução agendada, entrega de subagente, sanitização de navegador/imagem, contexto de voz, entrega de mensagem, comportamento de timeout, diagnósticos e recuperação precisam de um teste nomeado cada. Codex: crie uma tarefa orientada a objetivos, teste codex remote-control, liste perfis de permissão, inspecione a saída de descoberta de plugins e decida quais eventos de ciclo de vida devem ser logados. A mudança de arquitetura é estado de objetivo durável, perfis de permissão explícitos, inventário de plugins inspecionável e ganchos de extensão em torno de execução de ferramentas, turnos, subagentes e aprovações. Claude Code: teste uma sessão em segundo plano fixada, /code-review em um diff real, paginação MCP contra um servidor com mais de uma página, reutilização de permissão em segundo plano, caminhos de shell Windows se relevante, e o caminho de regressão do Bash. Os modos de falha a observar são concretos: recursos MCP faltando após a página um, uma sessão em segundo plano pedindo novamente uma permissão já concedida, política de login empresarial sendo contornada através de outro caminho de provedor, ou comandos de shell reportando o estado de saída errado. Capture comportamento de API e SDK, arquitetura de runtime, notas de avaliação, evidência de benchmark, sinais de observabilidade, limites de segurança e privacidade, configuração de deployment, latência, throughput, custo, memória, estado do scheduler, logs, IDs de trace, formato de request/response e comportamento de retry enquanto a tarefa é pequena. O movimento útil de setup é uma pequena matriz de verificação: uma ação de canal, uma execução agendada, uma chamada de modelo roteada por provedor, uma aprovação de ferramenta, uma consulta de inventário MCP, uma operação de navegador/imagem e um subagente delegado.

[10:00] Hermes Agent como o bench local prático Hermes merece um segmento separado. O release Foundation adiciona o caminho fácil de instalação PyPI, hermes proxy, provedores com OAuth, SuperGrok, busca X, Teams, instalações lazy, lançamento mais rápido, aceleração de console do navegador, LINE, SimpleX, /handoff, botões nativos de esclarecimento, backfill do Discord, visão de pixel, verificação de mutação de arquivo, diagnósticos LSP, geração de vídeo plugável, uso de computador mais amplo, integração com Zed ACP Registry, roteamento OpenRouter Pareto Code, skills opcionais, eventos de aprovação de API e chamadas LLM do lado do plugin. Transforme isso em um caminho de teste: instale ou atualize, execute hermes doctor, inicie o proxy, aponte um cliente OpenAI-compatible para ele, teste uma inspeção de navegador, edite um arquivo pequeno e observe o feedback LSP, passe uma sessão e tente um caminho de botão de esclarecimento. O payoff não é "usar cada feature"; é tornar Hermes um bench mais afiado para Codex, Claude, provedores locais e superfícies de chat.

[17:00] Codex Appshots e modo de objetivo Use Appshots quando um problema de UI ou aplicativo de desktop for mais fácil de mostrar do que descrever. O bundle útil é screenshot mais texto disponível mais um objetivo durável. Anotações de navegador tornam o feedback visual específico. Contexto JavaScript somente leitura torna a inspeção mais segura. Uso de computador bloqueado é para tarefas locais longas supervisionadas onde o Mac pode bloquear antes da execução terminar. Experimente isso com um problema de UI: capture o estado ruim, defina um objetivo, peça a menor mudança de código possível, execute a página e capture um segundo estado antes de aceitar o resultado.

[22:00] Túneis MCP seguros Use túneis MCP seguros quando uma ferramenta privada deve ser alcançável por um agente sem abrir portas de firewall de entrada. O túnel resolve conectividade, não autorização. Antes de conectar um servidor MCP privado, defina a allowlist de ferramentas, binding de conta/projeto, trilha de auditoria,边界 de confiança do servidor local e caminho de segredo. Evite transformar um túnel em uma ponte universal de rede privada. Construa o primeiro como somente leitura e exija aprovação humana antes de chamadas de mutação.

[27:00] Google Agent Executor e execuções duráveis de agentes Agent Executor importa porque agentes de longa execução precisam de logs de eventos, snapshots, reconnect/backfill, atores isolados, estado de writer único e trajetórias brancháveis. Tente mapear uma tarefa de agente atual nessas peças: qual stream de eventos existe, onde o estado é armazenado, como o resume funciona, como fazer branch de um caminho falho e qual prova fica após a execução. Se o sistema não consegue responder, o agente pode funcionar uma vez mas ainda não é confiável o suficiente para trabalhos repetitivos de longa execução.

[32:00] GKE Agent Sandbox e Agent Substrate GKE Agent Sandbox e Agent Substrate visam o formato de workload de sistemas de agente: sessões isoladas, muito tempo ocioso, despertares rápidos, sandboxes stateful e uso de ferramentas bursty. O teste prático é se warm pools, snapshots, gVisor e scheduling de atores reduzem atraso de ativação sem esconder estado e evidência de debugging. Estime sessões ativas, sessões ociosas, estado retido, ferramentas permitidas, latência de wake e custo por sessão útil.

[37:00] Migração da CLI Antigravity O uso gratuito/consumidor do Gemini CLI para de servir requisições em 18 de junho de 2026. Antigravity CLI se torna o alvo de planejamento. Audite qualquer tarefa do Gemini CLI agora: autenticação, config, skills, hooks, subagentes, plugins, jobs async e compartilhamento de contexto desktop/CLI. Execute um prompt existente através do novo caminho antes do cutoff e registre o que mudou. A migração é mais fácil enquanto o caminho antigo ainda responde.

[42:00] Microsoft MagenticLite e uso de computador com modelos pequenos MagenticLite é útil porque emparelha modelos menores com um harness, sandbox, aprovações e ferramentas de navegador/arquivo. O teste não é se um modelo pequeno pode fazer tudo. É quais tarefas se tornam baratas o suficiente e confiáveis o suficiente quando o orquestrador, modelo de navegador, pontos de aprovação e sandbox QEMU são projetados juntos. Comece com uma verificação de dashboard limitada, preenchimento de formulário draft, navegação de ferramenta web conhecida ou relatório local em sandbox.

[47:00] Google Data Agent Kit Data Agent Kit empacota acesso a dados como ferramentas configuradas e skills para agentes de codificação. Use quando uma tarefa de dados precisa de acesso governado a BigQuery, AlloyDB, Spanner, Cloud Storage, validação de query ou verificações de drift. A primeira escolha de design é escopo: o que o agente pode consultar, o que pode escrever, como as credenciais são armazenadas e o que deve ser resumido em vez de colado no contexto.

[51:00] Chaves de API do Gemini e ferramentas de planejamento do Copilot Trate chaves de API do Gemini como tokens bearer pagos. Crie projetos standalone, restrinja chaves à API pretendida, adicione restrições de aplicação, armazene chaves server-side no Secret Manager, monitore contagem de requisições por ID de credencial e rotate chaves que se espalham. Então use busca semântica de issues do Copilot antes de edições de código: agrupe issues por modo de falha, plataforma ou área de release, e só então passe a tarefa reduzida para um agente. Se o Copilot Auto escolher o modelo, logue o modelo para mudanças de alto risco.

[55:00] Encerramento Encerre com uma fila concreta: faça upgrade do OpenClaw/Codex/Claude Code, passe o Hermes por um pequeno teste de proxy/navegador/LSP/handoff, capture um Codex Appshot, diseñe um túnel MCP com permissões antes da conectividade, esboce estado durável para um agente de longa execução, migre uma tarefa do Gemini CLI para Antigravity, experimente uma tarefa de uso de computador com modelo pequeno em sandbox, defina escopo de uma ferramenta de agente de dados, proteja chaves e use busca de issue semântica antes de pedir a um agente de codificação para editar.