Episode 54: Claude Code 2.1.144, Cursor Composer 2.5

[00:00] Abertura sobre as mudanças no Claude Code CLI O Claude Code CLI 2.1.144 é a release a ser examinada primeiro porque visa as superfícies exatas onde agentes autônomos falham: sessões em segundo plano e detached, comportamento de inicialização em redes degradadas, transporte MCP e higiene de chamadas de ferramentas. As correções principais são concretas. Um travamento de inicialização de até setenta e cinco segundos quando o endpoint da API estava inacessível atrás de um captive portal, firewall ou VPN foi corrigido, porque chamadas via canal lateral agora expiram após quinze segundos. Servidores MCP que paginam sua lista de ferramentas não retornam mais apenas a primeira página. Imagens MCP com tipos MIME não suportados são salvas em disco em vez de quebrar a conversa. Sessões em segundo plano ganham suporte a resume e notificações de conclusão com duração decorrida, e o seletor de modelo agora é escopado por sessão com um padrão separado.

Esta é uma release de manutenção, e esse é o ponto. O trabalho está nos modos de falha: um agente detached que deveria continuar executando, uma lista de ferramentas truncada silenciosamente, uma imagem que quebrou uma conversa, uma sessão retomada que escolheu o modelo errado. Após a leitura da release, o episódio cobre mais cinco movimentos relevantes para builders: Cursor Composer 2.5 como um modelo de codificação de longo horizonte mais barato, Anthropic adquirindo a Stainless e trazendo a geração de código SDK para dentro, Notion transformando seu workspace em um runtime de agente hospedado, o rewrite do adaptador LangChain e LangGraph do Vercel AI SDK, e Cloudflare Mesh colocando networking zero-trust sob o ciclo de vida do agente.

[02:30] Leitura da release do agent-stack — Claude Code CLI 2.1.144 Comece pelo travamento de inicialização, porque é o exemplo mais claro de uma correção que importa mais para agentes do que para usuários interativos. Quando o endpoint da API estava inacessível, o CLI podia bloquear por até setenta e cinco segundos antes de fazer qualquer coisa útil. Um humano percebe e espera. Uma execução de agente autônoma, um job agendado ou uma sessão em segundo plano em uma rede instável transforma isso em uma paralização, um timeout ou uma janela perdida. A correção limita as chamadas via canal lateral a quinze segundos. A lição para builders é que resiliência de inicialização em redes degradadas é uma propriedade de confiabilidade de agente, não algo cosmético.

As correções do MCP são o segundo bloco importante. Servidores MCP com respostas paginadas da lista de ferramentas retornavam anteriormente apenas a primeira página, o que significa que um agente poderia estar silenciosamente sem ferramentas que deveria ter. Isso é um bug silencioso de correção: nada dá erro, o agente simplesmente não consegue fazer algo que deveria ser capaz de fazer, e a execução parece uma falha de raciocínio em vez de um bug de transporte. A release também impede que imagens MCP com tipos MIME não suportados, como SVG, quebrem a conversa; a imagem é salva em disco e referenciada em vez disso. E o comando MCP list agora reporta o problema real quando um arquivo de configuração não pode ser parseado, em vez de mostrar silenciosamente nenhum servidor.

Sessões em segundo plano e detached recebem o maior número de correções individuais, o que indica onde a dor operacional real esteve. Sessões em segundo plano agora suportam resume e mostram duração decorrida na conclusão. Sessões em segundo plano travando no macOS quando o projeto está sob uma pasta protegida por Full Disk Access foi corrigido. Scroll, roda do mouse e navegação em sessões em segundo plano attached no Windows agora funcionam, e fechar o terminal enquanto attached não trava mais. Sessões retomadas mantêm o modelo que estavam usando em vez de herdar a escolha de outra sessão. Edit e Write não recusam mais com um erro de isolamento de worktree logo após o detach. Respawn não relata mais erroneamente uma sessão em execução como parada, e uma falha breve de wake não é mais marcada permanentemente como um crash de inicialização. Juntos, esses ajustes tornam o ciclo de vida detach, run, wake, respawn e resume algo que um builder pode colocar um supervisor ao redor.

Higiene de chamadas de ferramentas é a quarta área. As visualizações head e tail agora satisfazem a verificação de leitura antes da edição, e resultados vazios de grep, git grep ou git diff não são mais reportados como falhas de ferramenta. Erros falsos de ferramentas não são gratuitos: um agente que pensa que uma busca bem-sucedida sem resultados falhou vai repetir, questionar ou tomar um caminho pior. Remover falhas espúrias remove comportamento espúrio do agente e rodadas desperdiçadas. O seletor de modelo agora é escopado por sessão, com um padrão separado para novas sessões, então mudar o modelo para uma tarefa não muda silenciosamente em todos os lugares, incluindo para usuários do Bedrock e Vertex selecionando uma opção Opus de longo contexto.

A postura prática de upgrade é instalar o 2.1.144 e então exercitar as superfícies alteradas em vez de assumi-las. Inicie uma sessão em segundo plano, faça detach, wake, resume e confirme que mantém seu modelo. Execute um servidor MCP que pagina sua lista de ferramentas e confirme que o conjunto completo está visível. Passe um tipo de imagem não suportado por uma ferramenta MCP. Execute em uma rede onde o endpoint da API está brevemente inacessível e confirme que a inicialização não trava mais. A release só tem valor se os modos de falha que ela remove são os que seus agentes estavam realmente enfrentando.

[18:00] Cursor Composer 2.5 — um modelo de agente de codificação de longo horizonte mais barato O Cursor lançou o Composer 2.5 em 18 de maio, construído sobre uma base Kimi K2.5 com pós-treinamento mais pesado e voltado para sessões de codificação autônoma mais longas. Os números reportados: SWE-Bench Multilingual subindo de 73,7 para 79,8 por cento, Terminal-Bench de 61,7 para 69,3 por cento, um empate com o Opus 4.7 no Terminal-Bench 2.0 enquanto fica atrás do GPT-5.5, a cinquenta centavos por milhão de tokens de entrada e dois dólares e cinquenta por milhão de tokens de saída. O título é preço: aproximadamente um décimo do Opus 4.7 por token em performance de benchmarks de codificação comparável.

O método de treinamento é a parte que vale a pena explicar. O Cursor reporta três mudanças. Primeiro, aprendizado por reforço com feedback textual: em vez de apenas uma recompensa no final da execução, o modelo recebe dicas localizadas em chamadas de ferramentas que falharam. Para um agente de codificação de longo horizonte, isso é uma mudança na atribuição de crédito. Um único sinal de passou/falhou no final de uma sessão longa diz ao modelo muito pouco sobre qual das cinquenta chamadas de ferramentas foi o erro. Feedback textual localizado no ponto da falha dá um sinal de aprendizado muito mais nítido. Segundo, vinte e cinco vezes mais tarefas sintéticas, incluindo quebra-cabeças de reconstrução com exclusão de feature com ground truth exato. Terceiro, infraestrutura de treinamento em escala MoE usando otimizadores Muon sharded e HSDP em dual-mesh, com a execução de aprendizado por reforço dentro de sessões reais do Cursor usando o mesmo harness que o modelo em produção usa.

Esse último detalhe, RL fiel ao harness, é o que builders não devem pular. O comportamento de um agente de codificação é moldado tanto pelo harness quanto pelos pesos: como as ferramentas são apresentadas, como os erros voltam, como o contexto é aparado, como as retentativas funcionam. Treinar o modelo em um harness diferente daquele em que ele é shipped introduz uma lacuna de distribuição que se manifesta como o modelo parecendo pior em produção do que na avaliação. Executar RL dentro do harness em produção fecha essa lacuna. O takeaway econômico para builders é: quando um modelo alcança benchmarks de codificação adjacentes à fronteira a um décimo do custo por token, a matemática sobre executar muitas sessões longas muda, e um padrão de roteamento de default-barato-com-escalada-para-frontier se torna atraente. A cautela é que paridade de benchmark não é paridade de workflow; o teste real é custo totalmente carregado por tarefa concluída no seu próprio harness na sua própria distribuição de sessões longas.

[28:00] Anthropic adquire a Stainless e traz geração de código SDK para dentro A Anthropic anunciou em 18 de maio que adquiria a Stainless, a empresa de ferramentas de desenvolvimento cujo serviço transforma especificações de API em SDKs prontos para produção e automaticamente mantidos em Python, TypeScript, Go, Kotlin e Java. A Stainless era usada por uma longa lista de laboratórios de IA e empresas de infraestrutura. A Anthropic planeja descontinuar os produtos Stainless hospedados, incluindo o gerador de SDK; clientes existentes mantêm os SDKs já gerados mas perdem acesso futuro ao serviço hospedado.

A razão pela qual isso é uma história de agent-stack é o que um SDK realmente é em um sistema de agente. O SDK é a fronteira tipada que um agente atravessa toda vez que chama uma API externa. Quando um agente invoca uma ferramenta que encapsula um serviço, a correção dessa chamada depende do cliente corresponder à API em produção: os endpoints corretos, formatos de requisição e resposta, tipos de erro e comportamento de paginação. Um pipeline de geração de código que converte uma especificação nesse cliente e o mantém em sincronia conforme a especificação muda é infraestrutura diretamente sob a camada de ferramentas do agente. O modo de falha é drift de spec para SDK: um cliente que compila e parece fine mas silenciosamente não corresponde à API em produção. Para um humano, isso aparece como um bug report; para um agente autônomo, aparece como uma chamada de ferramenta retornando algo inesperado que o agente então raciocina incorretamente. Para equipes que dependiam do gerador hospedado, a escolha é geradores OpenAPI open source, SDKs de vendors, ou encapsular a API atrás de um contrato interno estável como um servidor MCP, e o padrão para builders é fixar a versão da especificação, diff da spec em produção em um agendamento, e tratar drift como um alerta em vez de uma descoberta feita quando um agente começa a se comportar de forma estranha.

[36:00] A Plataforma de Desenvolvedores do Notion transforma o workspace em um runtime de agente hospedado O Notion lançou sua Plataforma de Desenvolvedores em 13 de maio. A mudança é que o workspace se torna um lugar onde agentes executam, não apenas um lugar onde eles leem. Workers são um sandbox de código hospedado sem servidores para provisionar. A External Agent API permite que agentes de terceiros como Claude Code, Cursor e Codex ajam como participantes de primeira classe do workspace. Database sync mantém sistemas externos de registro atualizados dentro do Notion sem infraestrutura. Webhooks bidirecionais permitem que um Worker receba um evento, execute lógica e atue de volta no Notion ou chame outras APIs. Uma CLI gerencia auth, deploy de Worker e automação do terminal.

A peça tecnicamente interessante para builders é as ferramentas determinísticas de Worker. Em vez de uma chamada de ferramenta mediada por LLM, um agente customizado pode invocar um Worker que executa código previsível com execução eficiente em tokens. Esse é o padrão certo quando um passo precisa de determinismo e lógica customizada que uma chamada mediada por modelo não pode garantir. O tradeoff a considerar é o boundary de confiança: executar agentes de terceiros e código customizado dentro de um workspace que guarda dados reais da empresa significa que o modelo de governança — confiança progressiva, revisão humana, execução sandboxed, visibilidade unificada de atividade — está fazendo trabalho estrutural, não decoração. Builders devem tratar a External Agent API como uma superfície de integração multi-vendor e o boundary de confiança como algo a ser projetado, não herdado.

[42:00] Vercel AI SDK reescreve seu adaptador LangChain e LangGraph O rewrite do adaptador @ai-sdk/langchain importa porque a maioria das equipes não executa um framework de ponta a ponta. Elas prototipam em um, deployam em outro, e precisam que os formatos de mensagem e stream interoperem sem cola escrita à mão. O novo adaptador fornece toBaseMessages e convertModelMessages para converter objetos de mensagem do AI SDK em formato LangChain BaseMessage, e toUIMessageStream para transformar streams de modelo LangChain, output do LangGraph e resultados de streamEvents() no UIMessageStream do AI SDK. LangSmithDeploymentTransport é um ChatTransport que conecta um cliente de navegador diretamente a um deployment LangSmith ou LangGraph sem rota customizada de backend.

A lente do builder é interop como infraestrutura. Normalização de eventos de streaming, incluindo streamEvents() granular para observabilidade e partes de dados customizados tipados, é o que permite que uma UI construída em uma stack renderize um agente construído em outra sem tradução com perda. A abstração de transporte removendo cola de backend entre um navegador e um graph deployado é uma redução real de partes móveis. Adaptadores que bridging frameworks não são uma conveniência; para builders de agentes de stack mista eles são a costura que impede uma stack heterogênea de se fragmentar em conectores bespoke.

[46:00] Cloudflare Mesh coloca networking zero-trust sob o ciclo de vida do agente O push agent-cloud da Cloudflare inclui o Mesh, que aplica networking privado zero-trust e identidade a como agentes alcançam serviços e uns aos outros, além de mudanças datadas em ferramentas de desenvolvedor como a remoção em 18 de maio da flag legada wrangler dev --remote para Durable Objects baseados em KV. O ponto para builders é que à medida que agentes se movem de um processo em um laptop para muitos workers sandboxed chamando serviços internos e externos, a rede entre eles para de ser um detalhe de implementação. Ela se torna uma surface de ataque e um boundary de política. Identidade por agente com credenciais scoped supera chaves ambiente compartilhadas, política de rede deve se attaching à identidade através do ciclo de vida spawn-act-retire, e paridade de dev local versus remoto para estado de Durable Object é o tipo de detalhe que decide se um agente se comporta igual em desenvolvimento e produção. A recomendação é tratar a rede de agentes como algo que você projeta com identidade e política scoped, não algo que agentes herdam com acesso ambiente amplo.

[50:00] Encerramento: prioridades de upgrade Para Claude Code, instale o 2.1.144 e valide as superfícies alteradas diretamente: detach de sessão em segundo plano, wake, respawn e resume; paginação de lista de ferramentas MCP e tratamento de imagem não suportada; comportamento de inicialização em uma rede degradada; e que sessões retomadas mantêm o modelo correto. Para seleção de modelo, benchmark do Composer 2.5 dentro do seu próprio harness nas suas próprias tarefas de sessão longa e compare custo totalmente carregado por tarefa concluída, não taxas de acerto de headline. Para clientes de ferramentas, audite de onde vem a geração de SDK ou cliente e trate drift de spec para cliente como um modo de falha monitorado. Para workspace agents, trate a External Agent API do Notion como uma superfície multi-vendor e projete o boundary de confiança deliberadamente. Para stacks mistas, use o adaptador reescrito do Vercel para fazer bridge entre LangGraph e o AI SDK em vez de fazer conectores na mão. Para networking de agentes, attach identidade e política scoped ao ciclo de vida do agente em vez de depender de acesso ambiente amplo.