Episode 55: Codex 0.132.0, Claude Code 2.1.145, Gemini

Codex 0.132 e Claude Code 2.1 lideram o AgentStack Daily de hoje porque movem superfícies concretas de operadores: autenticação de SDK, esquemas de automação retomados, JSON de agente ao vivo, IDs de trace, visualizações de plugins e endurecimento de permissões.

[00:00] Abertura - comece com as superfícies de operador alteradas NOVA e ALLOY abrem sobre as mudanças práticas. Codex agora tem autenticação de SDK Python de primeira classe e APIs turn mais fáceis, enquanto Claude Code expõe estado de sessão ao vivo como JSON e adiciona linhagem de agente aos traces. Isso não é apenas uma atualização de número de versão. Muda como desenvolvedores programam agentes de codificação, retomam automações, observam trabalhos em segundo plano e capturam comportamento inseguro de shell antes que se torne um incidente.

[02:30] Leitura de lançamento - Codex 0.132 A maior mudança de API neste lançamento do Codex é a superfície de autenticação do SDK Python. Um cliente Python agora pode lidar com login de API-key, login via navegador do ChatGPT, fluxos de device-code, inspeção de conta e logout sem terceirizar o estado de autenticação para um wrapper CLI. Isso é importante para notebooks, jobs de CI, ferramentas internas e portais de desenvolvedor hospedados que precisam iniciar turns do Codex como um fluxo de trabalho programático real em vez de screen-scraping de comportamento de terminal.

A API turn também fica mais fácil para pequenas automações. Turns apenas com texto podem passar uma string simples, e execuções com handle agora retornam um TurnResult mais rico com itens coletados, tempo e uso. Isso dá ao código de orquestração de agentes um objeto de retorno melhor: o que aconteceu, quanto tempo levou, o que custou e quais artefatos voltaram. A receita prática é direta: use o SDK Python para pontos de entrada de ferramentas controlados, mantenha o CLI para trabalho local no repo, e capture TurnResult quando precisar de telemetria ou uma decisão downstream.

A mudança codex exec resume --output-schema é a que merece destaque para fluxos de trabalho duráveis. Retomar uma sessão mantém o contexto que tornou o agente útil, mas a saída ainda pode ser restrita a um schema. Essa é a ponte que faltava para automações que precisam de memória e saída legível por máquina: triagem de issues, status de migração, resumo de resultados de testes, ou um relatório noturno de saúde do código podem retomar o mesmo thread e ainda retornar JSON validado.

Codex também aperta o comportamento de servidor remoto e de aplicativo. O registro de executor remoto pode usar autenticação padrão do Codex em vez de um caminho separado de credencial de registro. Sessões remotas mantêm conexões websocket vivas e mostram caminhos diff relativos ao repo novamente, o que torna o trabalho remoto de longa duração menos provável de parecer morto ou produzir patches ilegíveis. Turns do servidor de aplicativo preservam a fidelidade de imagem solicitada, incluindo imagens locais em resolução original, entre entradas do usuário e ferramentas que produzem imagens. Isso é útil quando um agente está inspecionando screenshots, regressões de UI, diagramas ou artefatos visuais gerados onde contexto de baixa resolução muda a resposta.

As notas de risco são operacionais. Continuações de meta agora param quando atingem limites de uso ou bloqueios repetidos, então agentes devem gastar menos tokens em loops travados. Replay TUI de multi-sessão mantém chamadas MCP em andamento marcadas como ativas, e respostas de elicitation voltam para o thread que as solicitou, o que reduz confusão entre threads. Instalações Windows obtêm detecção de npm-install do codex doctor e binários MSVC que não requerem DLLs de runtime VC++ separadas. Testes de upgrade devem cobrir login/logout Python, um turn apenas texto, campos de TurnResult, um resume restrito por schema, estabilidade de websocket remoto, preservação de detalhes de imagem e saída do doctor no Windows se essa plataforma for relevante.

[17:00] Leitura de lançamento - Claude Code 2.1 Esta atualização do Claude Code é menor que o patch anterior, mas cai exatamente onde os operadores precisam: inventário ao vivo, rastreabilidade, inspeção de plugins e segurança de shell. claude agents --json transforma a visualização do agente em uma interface programável. Barras de status, fluxos de tmux-resurrect, seletores de sessão, dashboards e watchdogs agora podem consultar sessões Claude ao vivo sem analisar UI do terminal. O título da aba do terminal também mostra a contagem de entrada aguardando, então um agente em segundo plano que precisa de atenção humana é visível fora do TUI.

A atualização de tracing é importante para equipes executando subagentes em segundo plano. Spans OpenTelemetry de claude_code.tool agora incluem agent_id e parent_agent_id, e o parentamento de trace está corrigido para que spans de subagentes em segundo plano fiquem aninhados sob o span da ferramenta Agent que os despachou. Isso dá aos sistemas de observabilidade uma árvore de linhagem real: sessão principal, agente despachado, chamadas de ferramentas aninhadas, resultado. É a diferença entre "Claude usou uma ferramenta" e "este worker em segundo plano específico fez a coisa lenta após este turn pai."

JSON de linha de status agora inclui informações de repositório GitHub e PR quando detectadas. Isso torna prompts locais, linhas de status do terminal e monitoramento externo mais úteis durante trabalho de PR: o agente pode expor em qual repositório e pull request está operando sem uma sonda gh separada toda vez. As telas Discover e Browse de /plugin agora mostram os comandos, agentes, skills, hooks e servidores MCP/LSP de um plugin antes da instalação. Isso é uma melhoria de segurança e ergonomia: desenvolvedores podem inspecionar o que um plugin contribui antes de trazê-lo para o runtime.

A correção de permissão merece tempo de antena explícito. Claude Code corrigiu um bypass onde atribuições de variáveis simples a variáveis de ambiente não allowlisted em comandos Bash eram auto-aprovadas. Sistemas de aprovação de shell frequentemente focam em nomes de comandos, mas variáveis de ambiente podem redirecionar ferramentas, vazar dados, mudar comportamento de autenticação ou alterar caminhos de execução. Após atualizar, teste uma política de allowlist com uma atribuição de variável inofensiva não allowlisted e confirme que ela solicita em vez de aprovar silenciosamente.

Outras correções suavizam o uso diário: comandos slash de prompt MCP agora mostram uso de argumento ausente em vez de erros brutos de validação de servidor; redimensionar/refocar não congela mais o spinner e tempo decorrido; hints de resume do Windows PowerShell usam o separador de comando correto; push-to-talk de voz funciona no painel de resposta da visualização do agente; listas de tarefas renderizam em ordem estável; nomes não-ASCII de Agent Teams não envenenam mais headers de API; /review remove uma query GraphQL Classic Projects descontinuada; validação de plugin captura caminhos de arquivo sob skills:; Read retorna uma visualização parcial truncada em vez de falhar completamente em overflow de token de arquivo inteiro; e skills bifurcadas param loops infinitos de auto-reinvocação.

[29:00] Google Gemini - Gemini 3.5 Flash GA e Managed Agents A atualização da API Gemini do Google em 19 de maio lança gemini-3.5-flash como o modelo GA do Gemini 3.5 Flash e introduz Managed Agents na API Gemini. A parte útil para desenvolvedores não é apenas o nome do modelo. Managed Agents transforma execução de agente hospedado em uma superfície de API: uma chamada provisiona um agente alimentado pelo harness Antigravity, dá a ele um ambiente Linux isolado, permite que use ferramentas e execute código, e permite interações de acompanhamento para retomar com arquivos e estado intactos.

Isso muda a linha build-vs-buy para infraestrutura de agentes. Se seu agente precisa de execução de código, estado de arquivo e continuidade multi-turn, você não precisa mais começar conectando seu próprio pool de sandbox, camada de persistência e protocolo de harness. Você pode usar a API de Interactions como o plano de controle, personalizar o agente com instruções e skills markdown, e decidir depois se uma workload pertence a um ambiente gerenciado ou um harness auto-hospedado.

O tradeoff é controle. Agentes gerenciados reduzem fricção de infraestrutura, mas o limite de execução é o ambiente hospedado do Google. Auto-hospedagem através de um SDK ou agente runner local mantém mais controle sobre rede, filesystem, política, secrets e observabilidade. A orientação prática: use Managed Agents para protótipos, tarefas de ferramentas limitadas e workloads onde um ambiente Linux isolado hospedado é aceitável; use harnesses auto-hospedados quando o agente precisa de alcançabilidade de rede privada, regras de sandbox customizadas ou integração profunda de ferramentas locais.

Gemini 3.5 Flash importa porque runtimes de agentes são sensíveis a latência. Um modelo que é rápido o suficiente para loops repetidos de planejamento de ferramentas e forte o suficiente para tarefas de codificação muda quanto trabalho você pode colocar em uma única interação gerenciada antes que a experiência do operador pareça lenta. Observe os níveis de custo e latência, comportamento de chamadas de ferramentas, semântica de persistência de estado, e quão bem chamadas de acompanhamento preservam arquivos de trabalho sem esconder muito do trace de execução.

[39:30] Chrome WebMCP - ferramentas de agente de navegador se tornam explícitas WebMCP é um padrão web proposto pelo Chrome para expor ferramentas estruturadas a agentes de navegador. Em vez de pedir a um agente para inferir o propósito de cada botão e campo de formulário, uma página pode registrar ferramentas através de JavaScript ou anotar formulários HTML declarativamente. A ferramenta carrega entradas e saídas de JSON Schema, pode compartilhar estado da página e executa visivelmente no contexto do navegador do usuário.

Essa é a direção certa para confiabilidade de uso de computador. Atuação via pixel e DOM é flexível, mas é ambígua: o agente adivinha qual controle mapeia qual intenção, e cada clique extra é um ponto de falha. WebMCP torna ações de alto valor explícitas. Um site de viagem pode expor uma ferramenta de reserva multi-cidade. Um app de suporte pode expor uma ferramenta de diagnóstico. Uma página de configurações pode expor um comando seguro de "executar verificações" que seria difícil de descobrir pela UI sozinha.

O limite de segurança faz parte do design. WebMCP é controlado por uma Permissions Policy tools que por padrão permite contextos de nível superior same-origin e desabilita iframes cross-origin a menos que optem por allow="tools". Ações sensíveis podem solicitar interação do usuário com um diálogo de confirmação. A ferramenta ainda executa em uma página ou webview visível, o que significa que não há caminho backdoor headless por padrão. Isso é uma limitação, mas também uma propriedade de confiança: usuários podem ver o site, a marca e a superfície de ação.

Para desenvolvedores, o caminho de teste é claro. Habilite a flag local do Chrome ou use o origin trial do Chrome 149 quando disponível, adicione uma ferramenta imperativa ou uma anotação de formulário declarativa, defina um JSON Schema restrito, teste com a extensão Model Context Tool Inspector e verifique que a ferramenta retorna erros estruturados dos quais um agente pode se recuperar. O maior item de atenção é portabilidade: WebMCP é proposto, não terminado, então mantenha contratos de ferramentas pequenos e evite apostar toda a UX do seu agente em uma API de draft.

[48:00] Google AI Studio - Workspace, exportação do Antigravity e geração Android

A atualização de I/O do Google AI Studio é importante porque conecta várias superfícies de construção de aplicativos que normalmente funcionam isoladamente. Aplicativos gerados podem integrar com as APIs do Workspace, projetos podem exportar para o Antigravity, e o modo de build mobile pode gerar aplicativos Android nativos com um emulador no navegador, fluxos de dispositivo ADB e publicação no Play Internal Test Track.

A relevância para construtores é a continuidade. Um protótipo pode começar no AI Studio, acessar dados reais do Workspace, mover para o Antigravity para codificação agentica mais profunda, e continuar em uma faixa de testes Android sem forçar o desenvolvedor a reconstruir o contexto em cada limite. Esse é um fluxo de trabalho diferente de um protótipo de chat que produz um arquivo zip e deixa o restante do caminho do produto para trabalho manual.

O cuidado é com a governança. A integração com o Workspace significa dados reais e permissões reais, então aplicativos gerados precisam de revisão explícita de escopo OAuth, controles de usuário de teste e uma transferência clara de credenciais de protótipo para credenciais de produção. A geração Android também precisa da higiene normal de mobile: identidade do pacote, assinatura, distribuição interna, testes em dispositivos e telemetria. O modelo mental útil não é "AI Studio substitui o pipeline de aplicativos." É "AI Studio agora alcança mais longe no pipeline de aplicativos antes da transferência."

[55:30] Chrome DevTools para agents - verificação do browser se torna parte do trabalho de codificação

Chrome DevTools para agents oferece aos agents de codificação uma faixa de verificação de browser: transferência gerenciada de browser, emulação responsiva, emulação de geolocalização, depuração de sessão Chrome ativa e automação do Lighthouse. Isso é adjacente ao WebMCP, mas resolve um problema diferente. WebMCP é sobre páginas expondo ferramentas explícitas. DevTools para agents é sobre permitir que um agent de codificação verifique a página que acabou de alterar.

Essa distinção é importante. Um agent de código pode passar nos testes e ainda enviar um layout quebrado, um erro de console, uma requisição de rede falhada, um controle inacessível ou uma página lenta. A transferência de browser permite que o agent inspecione a superfície real de runtime em vez de parar no código fonte. A emulação responsiva e de geolocalização tornam a verificação menos limitada ao desktop. O Lighthouse oferece um caminho de auditoria estruturada para problemas de performance e acessibilidade.

Para equipes, isso empurra o trabalho de UI para um loop mais apertado: editar código, rodar o aplicativo, inspecionar o estado real da página, capturar evidência do browser, e então corrigir. O item de atenção é quanto desse loop se torna confiável e scriptável entre frameworks e servidores de desenvolvimento local. Quanto mais estável ficar, menos aceitável se torna para agents de codificação afirmarem que o trabalho de frontend está concluído sem olhar a página renderizada.

[63:00] GitHub Copilot Business e Enterprise - GPT-5.3-Codex se torna o modelo base

O GitHub está tornando o GPT-5.3-Codex o modelo base para Copilot Business e Enterprise. Os detalhes importantes são portas de aprovação de modelo, disponibilidade de suporte de longo prazo até 4 de fevereiro de 2027, multiplicadores de requisição premium, cronograma de depreciação do GPT-4.1 e a forma como padrões de modelo base moldam o comportamento de fallback para usuários empresariais.

Para desenvolvedores individuais, um upgrade de modelo pode parecer uma preferência. Para uma organização, é política. O modelo base afeta o que milhares de usuários recebem por padrão, quais cargas de trabalho consomem requisições premium, quais modelos precisam de aprovação e quanto tempo o comportamento mais antigo permanece disponível. Suporte de longo prazo é importante porque equipes precisam de tempo para validar comportamento de geração de código, padrões de revisão de segurança e orientação interna antes que um modelo antigo desapareça.

A recomendação prática é tratar a mudança como uma migração de governança, não apenas um anúncio de melhor modelo. Confirme quais modelos são aprovados, verifique multiplicadores de requisição premium contra uso real, identifique fluxos de trabalho ainda dependendo do comportamento do GPT-4.1 e documente o caminho de fallback antes que a janela de depreciação se feche.

[70:00] Encerramento - o que testar a seguir

A lista de verificação de upgrade é prática. Para Codex, teste autenticação do Python SDK, turns de string, TurnResult, retomamento com restrição de schema, keepalives remotos, fidelidade de imagem e parada do loop de objetivos. Para Claude Code, teste claude agents --json, IDs de agent OTEL, campos GitHub da linha de status, dados de preview de plugin, payloads de hooks e prompts de permissão de variáveis de ambiente do Bash. Para Gemini Managed Agents, teste interações de acompanhamento com estado e persistência de arquivos. Para WebMCP e Chrome DevTools, teste uma ação de browser de alto valor mais um loop de verificação de página renderizada. Para AI Studio e Copilot, revise escopos, caminhos de transferência, portas de aprovação e controles de custo antes de incorporá-los ao trabalho diário.