Episode 67: Resumo de Lançamentos do Agent Stack: Codex

Episódio 067 — 9 de junho de 2026

[00:00] Gancho do episódio

Duas novidades frescas nos CLIs de agent-stack caíram esta semana: o OpenAI Codex salta para rust-v0.138.0 com um mecanismo de transferência CLI-to-desktop que elimina a transferência manual de contexto, e o Claude Code CLI avança para 2.1.169 no npm — tudo dentro de 24 horas um do outro. O grupo de trabalho do Model Context Protocol publicou sua Release Candidate de julho de 2026, pivotando a especificação para uma arquitetura stateless com um framework de extensões de primeira classe. A Apple WWDC 2026 entregou uma Siri AI funcional alimentada pelo Google Gemini, um app Shortcuts que monta automações a partir de descrições em linguagem natural, e um atualizador de senhas comprometidas com um toque. E a linha principal Qwen3.7 da Alibaba se revela com o Qwen3.7-Max — um modelo de raciocínio de 1M de tokens que executou 1.000 chamadas de ferramentas e melhorou um kernel em 10x inteiramente por conta própria — junto com o Qwen3.7-Plus, a variante de agente multimodal. Vamos destrinchar tudo isso.

[02:00] OpenAI Codex rust-v0.138.0

A OpenAI enviou o Codex rust-v0.138.0 em 8 de junho de 2026 como uma versão estável, disponível na página de releases do GitHub sob a tag rust-v0.138.0. Esta é a primeira versão estável desde que o rust-v0.137.0 apareceu no EP065, e ela chega com três funcionalidades voltadas para o usuário que mudam diretamente como os desenvolvedores trabalham com o Codex.

A adição principal é o comando /app e seu mecanismo companion de transferência para desktop. No macOS e no Windows nativo, executar /app em uma sessão do Codex CLI transfere o contexto da thread atual para o Codex Desktop — autenticado pelo token de sessão existente, sem novo prompt. Os lançamentos de workspace no Windows agora podem abrir diretamente no Desktop em vez de parar em um prompt manual, o que significa que um desenvolvedor pode iniciar uma tarefa em um terminal, perceber que precisa de um navegador GUI ou contexto de múltiplas janelas, e transferir sem perder estado. O transporte usa um barramento de named-pipe na estação de trabalho local; o cliente desktop obtém o token de sessão da store de auth do CLI.

A segunda funcionalidade é a exposição de caminho de imagem local. Quando o Codex gera uma imagem ou anexa uma imagem local à conversa, o modelo agora recebe o caminho do arquivo salvo como uma referência de primeira classe em vez de uma URL efêmera. Anteriormente, edições de acompanhamento exigiam que o modelo rastreasse uma URL que poderia expirar ou ficar inacessível; agora o modelo mantém o caminho exato file:// e pode referenciá-lo em chamadas de ferramentas subsequentes de forma confiável. Isso corrige o fluxo de trabalho de edição de acompanhamento de imagem que estava quebrado em todas as versões desde que a geração de imagens foi lançada.

A terceira funcionalidade é a flexibilidade de esforço de raciocínio. O TUI agora tem atalhos de fallback para terminais que não possuem associações de tecla Alt — um problema real em layouts de teclado não americanos — e os níveis de esforço definidos pelo modelo fluem na ordem que o modelo anuncia, em vez de ser reclassificados pelo cliente. O resultado é a seleção determinística de esforço de raciocínio em implantações do Codex.

Duas correções de bugs abordam dores operacionais reais: condições de corrida de área de transferência em ambientes de alta latência (um problema quando o Codex roda sobre SSH remoto ou conexões com alta oscilação de rede) e falhas intermitentes de autenticação durante sessões de longa duração (um caso extremo de expiração de token de sessão que triggers prompts de reautenticação no meio de uma tarefa). Nenhuma é dramática, mas ambas foram relatadas por usuários no fórum de desenvolvedores da OpenAI.

Superfícies de operador que mudam: o comando /app é novo no CLI; o tratamento de caminho de imagem é novo na camada de interface do modelo; os atalhos de fallback de esforço de raciocínio são novos no TUI. Não há novas flags de configuração ou variáveis de ambiente. Risco de migração é baixo — esta é uma versão aditiva com padrões compatíveis com versões anteriores.

O que os agentes agora podem fazer que era previamente impossível ou frágil: transferir uma sessão CLI para um cliente desktop no meio de uma tarefa sem perder contexto; referenciar de forma confiável um arquivo de imagem gerado em edições de acompanhamento entre turnos; selecionar níveis de esforço de raciocínio em layouts de teclado não americanos sem gambiarras.

[06:30] Claude Code CLI 2.1.169

O Claude Code CLI da Anthropic publicou a versão 2.1.169 no npm em 8 de junho de 2026 às 18:11:20 UTC, tornando-se a entrada mais recente na track de dist-tag latest. A dist-tag stable permanece em 2.1.153, deixando uma lacuna de 16 versões de patch entre as duas tracks. Para operadores, isso significa: se você está no latest, você já está no 2.1.169 se tiver atualizado desde 8 de junho; se você está no stable, você está no 2.1.153 e a lacuna é intencional — a track stable é curada para regressões.

O delta do 2.1.168 para o 2.1.169 é uma publicação de patch único dentro de 24 horas, sugerindo um hotfix para uma regressão estreita. Os metadados do npm não anunciam novas superfícies de API públicas ou flags de configuração para esta versão. O ciclo de iteration rápida — cinco releases entre o EP064 e o EP067 — reflete o foco interno em melhoria de estabilidade e confiabilidade de chamadas de ferramentas que tem caracterizado a série 2.1.16x.

Superfícies de operador: o pacote npm @anthropic-ai/claude-code na tag latest. Sem novas flags de CLI ou arquivos de configuração. Risco de migração é mínimo — esta é uma atualização de nível de patch em uma track de release bem estabelecida.

O que os agentes agora podem fazer: o patch 2.1.169 provavelmente aborda um caso extremo específico de chamada de ferramentas relatado desde que o 2.1.168 foi lançado. Operadores no latest devem atualizar e monitorar qualquer anomalia de binding de sessão; se nenhuma aparecer, o release é um patch de estabilidade limpo.

[09:00] MCP July 2026 Release Candidate

O grupo de trabalho do Model Context Protocol publicou a Release Candidate de 28 de julho de 2026 em 8 de junho de 2026, marcando a mudança arquitetural mais significativa na história do MCP. A mudança central é de um modelo de sessão stateful para um transporte stateless com aplicações stateful opcionais empilhadas em cima. No modelo anterior, clientes MCP mantinham uma store de sessão no lado do servidor — uma restrição de sticky-session que tornava o scaling horizontal impossível sem afinidade de sessão no balanceador de carga. O RC remove isso movendo todo o contexto de sessão para o payload da requisição em si, então qualquer cliente MCP pode rotear para qualquer réplica de servidor sem store de sessão necessária.

Requisições servidor-para-cliente são reestruturadas. Anteriormente, um servidor podia enviar dados para o cliente apenas através do callback de sampling — um caminho estreito e especializado. O RC adiciona uma primitiva geral server_request à camada JSON-RPC, habilitando servidores a enviar prompts, atualizações de recursos ou resultados de ferramentas sem um poll do cliente. Isso é arquiteturalmente similar a como SSE (Server-Sent Events) funciona em HTTP — um stream iniciado pelo servidor com assinatura do lado do cliente.

O framework de Extensões agora é de primeira classe. Novas capabilities são enviadas como extensões opt-in com seu próprio namespace versionado, estabilizam em forma de extensão, e só se movem para a especificação core se e quando conquistam adoção ampla. A extensão MCP Apps (SEP-1865) permite que servidores enviem interfaces HTML interativas renderizadas em iframes sandboxed com uma ponte controlada de postMessage — um padrão de UI renderizado pelo servidor que poderia substituir UIs customizadas de injeção de prompt em ferramentas de agente. A extensão Tasks se gradua de experimental para uma extensão nomeada.

Três recursos anteriormente experimentais foram descontinuados sob a nova política de ciclo de vida de recursos (SEP-2577). Validação completa do JSON Schema 2020-12 para ferramentas agora é obrigatória em vez de recomendada.

Superfícies de operador: implementadores de servidores MCP precisam auditar seu código para estado de sessão do lado do servidor e migrá-lo para o cliente ou um armazenamento externo. Hosts clientes MCP devem atualizar para lidar com a nova primitiva server_request. O framework de Extensões significa que novas funcionalidades serão lançadas como adições opt-in em vez de mudanças na especificação — acompanhe as versões de extensões como indicadores principais de novas funcionalidades MCP.

O que agentes podem fazer agora que era impossível antes: escalar a infraestrutura de servidores MCP horizontalmente sem sessões fixas; receber pushes iniciados pelo servidor sem polling; usar superfícies de UI renderizadas pelo servidor (MCP Apps) como componentes interativos dentro de sessões de agentes.

[13:00] Apple WWDC 2026 — Siri AI, Gemini e Atalhos em Linguagem Natural

O keynote da WWDC 2026 da Apple em 8 de junho apresentou a atualização de IA mais substancial na história da empresa. O destaque é o Siri AI — um agente completo de linguagem natural integrado ao iOS 27, iPadOS 27 e macOS 27 — alimentado por uma parceria com o Google Gemini para inferência em nuvem, com Apple Intelligence no dispositivo rodando nos chips A19 Pro e famílias M4. A parceria é arquiteturalmente uma pilha de inferência de dois níveis: tarefas leves e sensíveis à privacidade são executadas no dispositivo; solicitações de raciocínio complexo são roteadas para a API Gemini do Google.

O novo app Atalhos aceita descrições de fluxos de trabalho em linguagem natural. Um usuário digita "notifique meu parceiro quando eu sair do trabalho e informe o tempo estimado de chegada" e o sistema decompõe isso em uma sequência de ações do sistema e de apps — buscando um endereço armazenado dos contatos, calculando o tempo de viagem via Apple Maps, enviando uma mensagem via Mensagens — e então monta e salva o grafo de automação resultante. Este é o mesmo conjunto de primitivas subjacentes que alimenta a camada de automação existente do Atalhos, agora acessível via linguagem natural em vez de uma interface de arrastar e soltar.

O Safari ganha gerenciamento de abas por IA e um monitor de mudanças de página que alerta quando uma página rastreada é atualizada — útil para monitorar preços, notícias ou qualquer conteúdo web sensível ao tempo. O atualizador de senha comprometida em um toque usa IA para acessar o fluxo de login através da automação do Safari, lidando com processos de mudança de credenciais de múltiplas etapas sem entrada manual do usuário. O Mensagens exibe fotos por descrição de texto, e o Calendário aceita criação de eventos em linguagem natural com contexto de pessoas e horário extraído do email durante chamadas ativas.

Superfícies de operador: o planejador de linguagem natural do Atalhos é uma nova superfície para automação de fluxos de trabalho que usuários não técnicos podem agora criar diretamente. A parceria com o Gemini significa que o iOS tem uma pilha de inferência de dois níveis — no dispositivo para privacidade, nuvem para raciocínio complexo — arquiteturalmente semelhante a como o Claude Code faz roteamento entre modelos locais e remotos. O atualizador de senha em um toque provavelmente estará entre as primeiras ações de IA compatíveis com terceiros à medida que a Apple abre a API do Atalhos.

O que agentes podem fazer agora que era impossível antes: construir automações descrevendo-as em linguagem simples em vez de montá-las manualmente; atualizar senhas comprometidas com um único toque usando automação de navegador orientada por IA; rastrear mudanças em páginas web sem polling ou atualização manual.

[17:00] Qwen3.7-Max — O Flagship Agêntico da Alibaba

A Alibaba lançou o Qwen3.7-Max em 21 de maio de 2026 como o flagship de raciocínio proprietária apenas texto da geração Qwen 3.7, disponível apenas via API através do Alibaba Cloud Model Studio. O modelo foi projetado especificamente para cargas de trabalho agênticas de longa duração com capacidades de raciocínio e codificação atualizadas. Em um teste interno, o Qwen3.7-Max realizou autonomamente mais de 1.000 chamadas de ferramentas e modificações de código iterativas para otimizar um kernel SGLang Extend Attention em um PPU T-Head ZW-M890 — uma arquitetura de hardware que não estava nos dados de treinamento do modelo. O processo de otimização melhorou a velocidade de inferência em aproximadamente 10x em relação ao baseline em uma execução de várias horas, com o modelo escrevendo, executando, medindo e revisando sua própria implementação de kernel em mais de 1.000 etapas.

O Qwen3.7-Max apresenta uma janela de contexto de 1M de tokens e expõe um endpoint de API compatível com Anthropic, significando que funciona com a mesma interface de chamada de ferramentas que o Claude Code usa. A integração requer uma mudança de configuração de três linhas apontando para o endpoint de API compatível com Anthropic da Alibaba Cloud — nenhum SDK proprietária necessário. O modelo não é open-source; o tier Max nunca foi open-source em nenhuma geração do Qwen.

Superfícies de operador: o endpoint de API compatível com Anthropic no Alibaba Cloud Model Studio. Nenhuma opção de implantação local. A demo autônoma de 1.000 etapas é um benchmark para avaliar capacidade agêntica de longo horizonte — útil para comparar modelos antes de se comprometer com uma carga de trabalho agêntica em produção.

O que agentes podem fazer agora que era impossível antes: executar tarefas agênticas sustentadas de várias horas com 1.000+ etapas de chamada de ferramentas em um único modelo; usar um modelo de raciocínio de alto contexto junto com o Claude Opus 4.7 sem alterar as ferramentas do agente.

[20:00] Qwen3.7-Plus — Modelo Agêntico Multimodal

O Qwen3.7-Plus é a variante multimodal equilibrada da geração Qwen 3.7, disponível via API através do Alibaba Cloud Model Studio e listada no OpenRouter. Aceita entrada de texto, imagem e vídeo com saída de texto, usando uma arquitetura híbrida que combina atenção linear eficiente com roteamento esparso de mixture-of-experts para escalabilidade forte em contagens menores de parâmetros ativos. A janela de contexto de 1M de tokens é compartilhada entre todas as modalidades de entrada. Testes iniciais de terceiros cobriram fluxos de trabalho baseados em navegador, tarefas de codificação OpenCode, geração de jogos em C++, design de frontend, simulação de voo e geração de websites interativos.

O modelo lida com entradas multimodais nativamente sem um pipeline separado de codificador de visão, reduzindo a sobrecarga de chamada de ferramentas para tarefas de compreensão de imagem. Isso é arquiteturalmente significativo: um único modelo lida com raciocínio de visão e linguagem, significando que agentes podem processar uma captura de tela, um arquivo de código e uma instrução em linguagem natural na mesma janela de contexto sem roteamento através de modelos separados de visão e linguagem.

Superfícies de operador: API via Alibaba Cloud Model Studio e OpenRouter. Nenhum release de pesos abertos. A arquitetura MoE híbrida significa que pode executar eficientemente em orçamentos de GPU commodity mantendo raciocínio de nível frontier.

O que agentes podem fazer agora que era impossível antes: lidar com tarefas agênticas multimodais — compreensão de tela, análise de documentos, automação de GUI — com um único modelo unificado em vez de um pipeline de modelos separados de visão e linguagem; processar transcrições de vídeo longas e bases de código grandes em uma única janela de contexto.

[23:00] Fila prática

Atualize o Codex para rust-v0.138.0 e experimente /app para transferir uma sessão CLI para o cliente desktop — especialmente útil em configurações de vários monitores. Atualize o Claude Code CLI via npm update -g @anthropic-ai/claude-code se você estiver usando a tag latest; fixe na stable se precisar de previsibilidade. Audite sua implementação de servidor MCP para estado de sessão do lado do servidor antes que a RC de julho de 2026 se torne definitiva. Explore o novo planejador de linguagem natural do Shortcuts no iOS 27 quando a versão beta for lançada. Adicione Qwen3.7-Max ao Claude Code com uma configuração de API compatível com Anthropic em três linhas para tarefas de agente de longo prazo. Avalie Qwen3.7-Plus como um substituto multimodal para Claude Opus 4.7 em cargas de trabalho de agente de linguagem visual.