Episode 60: Claude Code 2.1.158, Controle do Windows do

Claude Code 2.1.158 estende o modo automático para Bedrock, Vertex e Foundry para Opus 4.7 e Opus 4.8 quando CLAUDE_CODE_ENABLE_AUTO_MODE=1 está habilitado. A atualização do app Codex da OpenAI em 29 de maio adiciona uso de computador no Windows, controle remoto pelo celular ou Mac enquanto a máquina Windows permanece como host, comportamento mais rápido e estável do navegador integrado ao app, e Codex Profiles para identidade, atividade, estatísticas de uso e atividade de tokens. Depois o episódio avança para as entradas de sistema da Messages API da Anthropic e um radar de projetos sobre memória arquitetural local, cognição persistente de agentes, agentes de codificação apenas locais e reparo apoiado por grafos.

[00:00] Abertura: lançamentos, superfícies de controle e memória A faixa útil do AgentStack Daily hoje é controle. O Claude Code está expondo o modo automático em provedores de nuvem gerenciados, mas apenas atrás de uma variável de ambiente explícita. O Codex está estendendo o uso de computador para Windows mantendo arquivos de projeto, shell, servidor de apps e contexto local no host Windows. A OpenAI está mostrando perfil e atividade de tokens para que o uso de agentes se torne inspecionável. A Anthropic está dando aos construtores de harness uma forma de atualizar instruções de sistema dentro de uma sequência de mensagens em execução. O radar de projetos então faz a mesma pergunta no nível do repo: como os agentes lembram arquitetura, decisões e evidências de reparo sem despejar tudo no próximo prompt?

[03:00] Claude Code 2.1.158 e controle do Codex no Windows O Claude Code 2.1.158 adiciona suporte ao modo automático no Bedrock, Vertex e Foundry para o Opus 4.7 e 4.8 quando CLAUDE_CODE_ENABLE_AUTO_MODE=1 está definido.

Essa pequena versão merece explicação porque o modo automático é uma superfície de política e roteamento, não apenas um toggle de conveniência. Quando um agente de codificação decide se uma ação é segura o suficiente para executar automaticamente, o limite do provedor importa. Implantações no Bedrock, Vertex e Foundry frequentemente existem porque uma equipe deseja acesso ao modelo dentro de um ambiente de nuvem gerenciado com sua própria identidade, registro e regras de conformidade. Disponibilizar o modo automático lá significa que o classificador de ações automáticas pode ser testado na mesma faixa gerenciada da execução do agente empresarial.

A atualização do app Codex da OpenAI em 29 de maio é o outro item do início do episódio. O uso de computador do Codex agora suporta Windows para usuários elegíveis, então o Codex pode ver, clicar e digitar em aplicativos Windows durante testes, depuração e refinamento de um build. A forma de controle remoto importa: um usuário pode iniciar trabalho em uma máquina Windows e depois usar o ChatGPT no iOS ou Android, ou o Codex no Mac, para verificar o progresso, responder a prompts e direcionar a thread enquanto estiver longe da mesa. A máquina Windows permanece como host para arquivos de projeto, shell, servidor de apps e contexto local. Essa é a fronteira correta para muitos fluxos de trabalho locais: supervisão pode se mover, mas execução permanece próxima ao repo e app em execução.

Os Codex Profiles adicionam outra camada de inspecionabilidade. Identidade, atividade ao longo do tempo, detalhes do perfil, estatísticas de uso e atividade de tokens dão aos usuários elegíveis mais da superfície operacional que agentes de longa execução precisam. Quando um job diário falha, quando uma sessão remota usa tokens inesperados, ou quando um perfil está vinculado à identidade errada, evidências de uso não são um luxo. É como a stack se torna depurável.

[13:00] Instruções de runtime se tornam estado editável O anúncio do Opus 4.8 da Anthropic incluiu uma mudança na API do desenvolvedor que merece seu próprio segmento: a Messages API agora aceita entradas de sistema dentro do array de mensagens. Para um harness de agente de codificação, isso é um primitivo útil. O objetivo do usuário pode permanecer na faixa do usuário, enquanto fatos de runtime podem ser adicionados como entradas de sistema quando o ambiente muda.

Pense sobre o que muda durante uma execução real de agente. Um sandbox pode se tornar bloqueado. Um orçamento de tokens pode encolher. Um conjunto de testes pode passar de falhando para passando. Um worker em background pode terminar. Uma ferramenta pode ser revogada. Um repositório pode mudar de um worktree para outro. Sem uma forma estruturada de atualizar estado de runtime, harnesses tendem a enfiar esses detalhes em texto comum ou pedir ao modelo para inferi-los de logs. Entradas de sistema dentro do array de mensagens permitem que o harness diga, mais precisamente, "o contrato operacional mudou."

O ângulo de cache de prompt também é importante. Sessões longas são caras porque repetir todo o contrato queima tokens e deixa o contexto pesado. Se um harness pode atualizar fatos específicos do sistema sem quebrar o comportamento de cache, ele pode manter o agente atualizado sem constantemente reconstruir todo o prompt. Isso é especialmente útil para OpenClaw, Hermes, Codex, Claude Code e qualquer agendador que precise manter um job de longa execução alinhado com permissões atuais.

[21:00] OpenLore e Mnemo: memória com estrutura e frescor O OpenLore ataca o problema de orientação. Agentes de codificação desperdiçam muito contexto redescoobrindo a mesma estrutura de projeto: pontos de entrada, caminhos de chamada, módulos, clusters, decisões arquiteturais e desvios. O OpenLore transforma isso em um grafo local e uma camada de orientação acessível via MCP. O agente pode pedir um resumo compacto da arquitetura, então expandir apenas a parte do grafo relevante para a tarefa atual. Isso é melhor do que ler uma árvore de diretórios, vários arquivos, um README e uma transcrição toda vez que uma sessão começa.

O Mnemo aborda o problema da memória em uma direção complementar. Ele foca em cognição de engenharia persistente com armazenamento local-first, recuperação híbrida, grafos de conhecimento, ganchos de ciclo de vida e decadência de memória. A parte de decadência é o detalhe operacional interessante. A memória de um agente não deveria tratar toda decisão antiga como igualmente autoritativa para sempre. Uma convenção nova, uma tarefa ativa e um modo de falha conhecido deveriam ser fáceis de lembrar. Um workaround antigo de três semanas deveria esfriar a menos que seja reforçado.

Juntos esses projetos apontam para uma camada de memória melhor para stacks de agentes. O OpenLore lembra como o código é moldado. O Mnemo lembra o que o projeto aprendeu e quão fresca essa knowledge é. Ambos são mais úteis do que despejar transcrições antigas em cada prompt, porque ambos dão ao harness uma forma de recuperar contexto menor e mais relevante.

[31:00] OpenMonoAgent e Prometheus: agentes locais e reparo apoiado por grafos O OpenMonoAgent é um experimento útil de agente local porque é explícito sobre a linha de base sem medidor e sem nuvem. Ele roda como um agente de codificação nativo de terminal com inferência local através do llama.cpp, sandboxing Docker, inteligência de código LSP e Roslyn, suporte MCP e playbooks. Ele não precisa superar cada modelo de fronteira para merecer um lugar na stack. Ele precisa tornar leitura de repos privados, edições mecânicas, refactors repetitivos de baixo risco e experimentos de loop de ferramentas locais baratos o suficiente para rodar frequentemente.

O trade-off é claro. Modelos locais podem ter dificuldade em raciocínio mais difícil e síntese ampla comparado com Claude Code, Codex ou um modelo hospedado mais forte. Mas execução local dá a uma equipe um ponto de comparação útil: o que pode ser tratado sem enviar código ou prompts para fora, o que precisa de um modelo mais forte, e o que deveria ser dividido em orientação local mais raciocínio em nuvem.

O Prometheus fica na faixa de reparo apoiado por grafos. Seu repositório descreve um agente baseado em grafo de conhecimento para mapear, entender e reparar bases de código complexas. Isso importa porque reparo autônomo é onde agentes de codificação frequentemente ficam muito confiantes. Um grafo pode limitar o loop de reparo: quais arquivos estão conectados, quais caminhos de chamada importam, quais testes devem ser selecionados, e quais evidências apoiam o patch. O objetivo não é fazer um grafo mágico. O objetivo é forçar o passo de reparo a carregar evidências de estrutura para o patch e plano de verificação.

[40:00] O que experimentar a seguir A fila prática do EP060 é específica. Teste o modo automático do Claude Code apenas atrás da flag de variável de ambiente explícita e apenas na faixa de nuvem gerenciada onde ele realmente rodará. Teste o uso de computador do Codex no Windows em um app inofensivo antes de confiar em supervisão remota para trabalho importante. Trate os Codex Profiles como evidências operacionais para identidade, uso e atividade de tokens. Para construtores de harness, estudem entradas de sistema dentro da Messages API como uma forma mais limpa de atualizar estado de runtime durante jobs longos.

Depois escolha um experimento de memória. Use o OpenLore quando a dor for redescoberta arquitetural. Use o Mnemo quando a dor for decisões esquecidas e contexto antigo. Use o OpenMonoAgent quando a dor for privacidade, custo ou repetibilidade local. Use o Prometheus quando a pergunta de pesquisa for reparo limitado por grafos. A lição diária é simples: stacks de agentes estão se tornando mais capazes, mas a vantagem durável ainda é controle, evidências e contexto que permanece pequeno o suficiente para usar.