Episode 64: Claude Code 2.1.165, Família MAI de Modelos de

Episódio 64 — 5 de junho de 2026

[00:00] Gancho do episódio

Claude Code 2.1.165 chega como o latest mais recente do npm em 5 de junho de 2026, seguindo 2.1.163 e 2.1.164 — todas versões de higiene tranquilas que limpam sessões em segundo plano, hooks de plugins, sintaxe de skills e manipulação de caminhos no Windows. A Microsoft lançou uma família de sete modelos MAI na Build 2026 em 2 de junho, com MAI-Code-1-Flash como destaque: um modelo de codificação de 5 bilhões de parâmetros treinado em harnesses de produção do GitHub Copilot, marcando 51% no SWE-Bench Pro e sendo 60% mais econômico em tokens do que modelos comparáveis. MAI-Image-2.5 atinge 1403 no leaderboard Arena Image Edit, à frente do Gemini 3 Pro. O Cosmos 3 da NVIDIA abre o desenvolvimento de IA física com um foundation model de mundo aberto disponível em três tamanhos no Hugging Face e no GitHub. O radar do projeto cobre memória de agentes, grafos de código e ferramentas MCP que servem à stack local de coding-agent.

[02:00] Claude Code 2.1.165 — bloco de higiene de três versões para sessões em segundo plano, hooks e Windows

Claude Code 2.1.165 é o latest do npm de junho, completando um bloco de higiene de três versões a partir da baseline EP063 de 2.1.162. O bloco não é uma onda de funcionalidades — é o tipo de release que fecha lacunas que os operadores descobrem quando um workflow dá errado.

A versão 2.1.163 é a mais interessante operacionalmente das três. As configurações gerenciadas requiredMinimumVersion e requiredMaximumVersion permitem que admins de org imponham bloqueios de versão — o Claude Code se recusa a iniciar se sua versão estiver fora do intervalo permitido e direciona o usuário a uma versão aprovada. Para operadores de fleet que precisam de comportamento determinístico entre versões, este é um primitivo de compliance real. /plugin list agora mostra plugins instalados com filtros --enabled/--disabled, o que importa quando a proliferação de plugins dificulta a auditoria do que está realmente carregado.

Os hooks Stop e SubagentStop ganham a capacidade de retornar hookSpecificOutput.additionalContext — o hook pode dar feedback ao Claude e manter o turno continuando sem ser rotulado como erro de hook. Isso muda como autores de hooks podem estender uma sessão: um hook que precisa expor informações sem bloquear o turno agora tem um contrato limpo. Skills adicionam uma sintaxe de escape \$ para $ literal antes de um dígito, o que importa para corpos de comandos que incluem referências a variáveis de shell. Servidores MCP stdio agora recebem o mesmo CLAUDE_CODE_SESSION_ID que hooks e Bash em --resume, o que fecha uma lacuna onde servidores MCP não conseguiam correlacionar uma sessão através de operações de resume.

As correções do Windows merecem ser notadas individualmente. Uma regressão na 2.1.154 fez $TMPDIR ser sobrescrito para /tmp/claude-{uid} para todos os comandos Bash em vez de apenas os sandboxed, o que quebrou workflows do Bazel e Go protegidos por EDR que dependem do diretório temp real. Comandos Bash agora falham corretamente no Windows quando o diretório session-env tem o atributo somente leitura ou está dentro do OneDrive. O messaging entre sessões (SendMessage) quebrou silenciosamente quando CLAUDE_CODE_TMPDIR ou $TMPDIR apontava para um diretório profundo — isso agora está corrigido.

A versão 2.1.165 é puramente correções de bugs e melhorias de confiabilidade. A lista prática de upgrade: audite as configurações de compliance de versão do seu fleet, execute /plugin list para ver o que está realmente instalado, teste um hook que retorna additionalContext para verificar o comportamento de extensão de turno, e verifique se workflows do Bazel e protegidos por EDR executam corretamente após a correção de regressão do $TMPDIR.

[14:00] Família Microsoft MAI na Build 2026 — MAI-Code-1-Flash e o modelo de codificação nativo do Copilot

A Microsoft abriu a Build 2026 em 2 de junho com um anúncio de família de sete modelos MAI. O modelo que mais importa para a stack de agentes é MAI-Code-1-Flash: um modelo de codificação de 5 bilhões de parâmetros treinado diretamente em harnesses de ferramentas de produção do GitHub Copilot, não em datasets genéricos de benchmark. A abordagem de treinamento é o diferenciador chave. Ao treinar nos mesmos harnesses que desenvolvedores usam para suas tarefas diárias de codificação, o modelo aprende como interagir com ferramentas e sistemas circundantes em workflows de codificação agentic — não apenas como responder a um prompt de benchmark.

Os números de benchmark são concretos. MAI-Code-1-Flash marca 51% no SWE-Bench Pro, uma vantagem de +16 pontos sobre o Claude Haiku 4.5 no mesmo harness de produção. No SWE-Bench Verified, SWE-Bench Multilingual e Terminal Bench 2, ele supera o Haiku 4.5 em todos os quatro benchmarks principais de codificação. O controle adaptativo de comprimento de solução é o mecanismo de eficiência: o modelo permanece conciso em requisições simples e aloca mais orçamento de raciocínio em problemas mais difíceis. A Microsoft vê 60% menos tokens de solução em tarefas complexas, o que se traduz em menor latência, menor custo e workflows interativos mais suaves.

MAI-Image-2.5 marcou 1403 no leaderboard Arena Image Edit em 2 de junho, à frente do Gemini 3 Pro Image Preview 2K com 1388. Essa é uma posição real no leaderboard para a Microsoft em edição de imagem multimodal — a primeira vez em um bom tempo que está demonstradamente à frente do Google em um benchmark comparável. Para stacks de agentes dentro de ambientes Microsoft, isso fecha uma lacuna onde tarefas de imagem precisavam rotear fora da superfície Copilot/Foundry.

MAI-Thinking-1 (35B parâmetros ativos / ~1T total) está em preview privado no Microsoft Foundry, posicionado contra o Claude Opus 4.6 no SWE-Bench Pro. A família MAI completa cobre modelos de imagem, voz e raciocínio, mas MAI-Code-1-Flash é o que muda workflows de coding-agent hoje.

O sinal estratégico: a Microsoft está reduzindo a dependência de OpenAI e competindo em capacidades de foundation model com pipelines de treinamento ajustados para sua própria stack de desenvolvedores. Para operadores de stack de agentes que roteiam entre laboratórios, isso adiciona um novo modelo nativo do Copilot que já está dentro das ferramentas que eles usam.

[26:00] NVIDIA Cosmos 3 — foundation model de IA física aberto para a próxima geração de agentes

A NVIDIA lançou o Cosmos 3 na COMPUTEX 2026 como um foundation model de mundo aberto para IA física. O modelo combina raciocínio visual, geração de mundo e predição de ação em uma única arquitetura de mixture-of-transformers — três capacidades que eram anteriormente sistemas separados. Três tamanhos estão disponíveis: Cosmos 3 Nano (16B parâmetros, otimizado para GPUs RTX PRO 6000 de nível workstation), Cosmos 3 Super (64B parâmetros, mirando GPUs Hopper e Blackwell de data center para geração de dados sintéticos em grande escala), e Cosmos 3 Edge (em breve, para inferência edge em tempo real).

Cosmos 3 é aberto para pesquisa e uso comercial. A NVIDIA liberou os pesos do modelo, scripts de treinamento, ferramentas de deployment e datasets no Hugging Face e no GitHub. A cobertura de benchmark é ampla: Artificial Analysis, Physics-IQ, PAI-Bench, R-Bench para acurácia de geração de mundo, RoboLab e RoboArena para política de ação, e VANTAGE-Bench e TAR para entendimento visual. Entre modelos abertos, Cosmos 3 lidera nesses benchmarks.

O ângulo de stack de agentes não é trabalho de codificação imediato — é sobre entender o que foundation models de IA física significam para a próxima geração de hardware de agentes. Agentes que interagem com robôs, veículos e ambientes do mundo real precisam exatamente das capacidades que o Cosmos 3 combina: raciocínio visual, simulação de mundo e predição de ação. Para operadores observando o horizonte, este é o foundation model aberto no qual equipes de robótica e shops de desenvolvimento baseado em simulação construirão.

[35:00] GitHub Copilot desktop app — orquestração nativa de agentes para a stack do Copilot

O novo aplicativo desktop do GitHub é o anúncio de produto que transforma o Copilot de um assistente de codificação reativo em uma superfície proativa de orquestração de múltiplos agentes. O painel "My Work" monitora e direciona múltiplos agentes de IA simultaneamente entre repositórios, issues, pull requests e automações em segundo plano. Cada sessão é executada em seu próprio worktree Git isolado — essa é a decisão arquitetural chave para o trabalho paralelo de agentes: sem conflitos de branches, sem gerenciamento manual de branches, sem interferência de sessão quando dois agentes operam no mesmo codebase ao mesmo tempo.

Canvases são o design de interação mais inovador. São superfícies visuais interativas e bidirecionais onde desenvolvedores e agentes colaboram em tempo real. O agente exibe seu plano atual, saídas de terminal, implantações ou sessões de navegador no Canvas. O desenvolvedor pode inspecionar, direcionar e verificar o trabalho sem trocar de janelas. Esse é um modelo diferente do padrão de terminal e chat que a maioria dos agentes usa hoje.

O Agent Merge automatiza o ciclo de vida do pull request desde a seleção de uma issue até a revisão, verificações e merge. O Copilot SDK está disponível em seis linguagens, o que significa que ferramentas personalizadas e extensões de agentes se tornam uma superfície de desenvolvimento de primeira classe em vez de um hack. O modo de voz no CLI adiciona uma nova modalidade de entrada para desenvolvedores que preferem falar a digitar.

A ação prática: se você é assinante do Copilot Pro ou Enterprise, ingresse na prévia técnica e teste uma sessão de agente paralelo em um repo de baixo risco. Use o SDK para construir uma ferramenta personalizada que extenda como um agente interage com seu fluxo de trabalho existente.

[44:00] OpenHands 1.6.0 — Kubernetes, Planning Mode e codificação autônoma de nível empresarial

O OpenHands é o agente de codificação autônoma mais consolidado em produção no ecossistema open source. A versão 1.6.0 foi lançada em março de 2026 com duas adições principais: suporte a Kubernetes para cargas de trabalho de agentes em container em escala, e um Planning Mode em beta que adiciona decomposição explícita de tarefas antes da execução.

A arquitetura do agente vale a pena entender como um ponto de referência. O OpenHands é executado em um ambiente isolado com um shell embutido, navegador web, editor de código e planejador de tarefas. Ele executa tarefas de engenharia de software de ponta a ponta — escrever e modificar código, executar comandos, navegar na web, rodar testes, debugar — sem trocar de ambientes. A flexibilidade de LLM significa que você pode conectar GPT-4, Claude, Gemini, modelos locais ou outros.

A lista de adoção empresarial é o sinal mais concreto: AMD, Apple, Google, Amazon, Netflix e NVIDIA estão usando em produção. Isso diz algo sobre onde os agentes de codificação autônoma estão na curva de maturidade — não são protótipos de pesquisa, mas ferramentas de produção em alguns dos ambientes de engenharia mais exigentes.

Para o stack de agentes, o OpenHands é uma referência primária para como é a codificação autônoma em produção. A integração com Kubernetes significa que agora ele pode fazer parte de uma infraestrutura de agentes containerizada e orquestrada. O Planning Mode em beta vale a pena acompanhar porque a decomposição explícita antes da execução é uma das lacunas que separa agentes autônomos que funcionam em demos daqueles que funcionam em produção.

[53:00] Fila prática

Para o Claude Code, audite as configurações de conformidade de versão da sua frota, execute /plugin list para ver o que está realmente instalado e verifique se os workflows protegidos por Bazel e EDR funcionam corretamente após a correção de regressão do $TMPDIR. Para o Microsoft MAI, teste o MAI-Code-1-Flash através do GitHub Copilot em uma tarefa de codificação real e compare o uso de tokens; se você está dentro de uma empresa Microsoft, teste o MAI-Image-2.5 através do Copilot em uma tarefa de edição de imagem. Para o NVIDIA Cosmos 3, faça pull do modelo da Hugging Face se você trabalha com IA física ou robótica e acompanhe o tier de tamanho Edge para futuro hardware de agentes de borda. Para o aplicativo desktop do GitHub Copilot, ingresse na prévia técnica e teste uma sessão de agente paralelo em um repo de baixo risco. Para o OpenHands, execute contra um dos seus repos, teste o Planning Mode em uma tarefa de múltiplas etapas e compare a conclusão de tarefas de ponta a ponta contra um agente de codificação de turno único.