Episode 66: Pane de sexta-feira da Claude, Correção tardia

[00:00] Intro: OpenClaw v2026.6.5-beta.2 mudança para cadence mensal, Claude Code .168 correção tardia de um dia, OpenAI ChatGPT superapp, Apple WWDC 2026, Anthropic Mythos ampliando alcance, Microsoft MAI no Copilot, Gemma 4 12B no Mac

O prerelease do OpenClaw v2026.6.5-beta.2 é o release principal do ciclo. Ele mudou o trem de releases para um esquema de numeração de patches mensais com o piso de junho de 2026 fixado em 5.28. O build inclui o novo provider web_search bundled do Parallel, coerção de resultados de ferramentas MCP para blocos não-texto e não-imagem, recuperação de extended-thinking da Anthropic após expiração do prompt-cache, e uma correção do modo node no macOS. A stack da Claude também teve uma interrupção na sexta-feira, 5 de junho, por aproximadamente duas horas começando às 11h19 EDT, afetando a Claude API, Claude Code, claude.ai e Claude Cowork com taxas de erro elevadas que atingiram principalmente o Opus 4.7 e 4.8 — o Downdetector atingiu quase mil relatórios nos EUA antes da Anthropic confirmar que o incidente foi resolvido no início da tarde de sexta-feira. O Claude Code 2.1.168 é a resposta do dia seguinte: uma correção de bug focada, com um dia de atraso, sobre a base .167 que fecha bugs de session attachment, ordering de eventos stream-json e tratamento de interrupções, vários dos quais correspondem aos modos de falha que os usuários relataram durante a janela de interrupção. Após o bloco harness, a OpenAI está reconstruindo o ChatGPT em um superapp de agentes de codificação antes de um IPO no outono, a Apple WWDC 2026 abre com uma Siri construída com o Gemini, a Anthropic amplia o Project Glasswing para mais de 150 organizações, a Microsoft lança o MAI-Thinking-1 e o MAI-Code-1-Flash no GitHub Copilot, e o Gemma 4 12B chega ao Google AI Edge Gallery para Mac como um modelo multimodal local de 16GB. A faixa do MCP é breve esta semana — um parágrafo resumido, não um aprofundamento. O radar de projetos cobre o A2A v1.0 e o harness Python CheetahClaws.

[02:00] Interrupção da Claude na sexta-feira (5 de junho), correção de bug Claude Code .168 tardia de um dia, OpenClaw v2026.6.5-beta.2 mudança para cadence mensal — cobertura de releases

A stack da Claude sofreu um impacto de aproximadamente duas horas na sexta-feira, 5 de junho de 2026, começando às 11h19 EDT. A Anthropic confirmou taxas de erro elevadas na Claude API, Claude Code, claude.ai e Claude Cowork. A interrupção afetou principalmente o Opus 4.7 e 4.8, e o Downdetector atingiu quase mil relatórios nos EUA — quarenta por cento Claude Chat, trinta e três por cento Claude Code, vinte por cento o aplicativo Claude. A página de status da Anthropic mostrou que o incidente foi resolvido no início da tarde de sexta-feira, e a declaração pública foi de que as taxas de sucesso haviam retornado aos níveis esperados. A interrupção é a razão real pela qual o Claude Code .168 foi lançado no dia seguinte. O release é uma correção de bug focada sobre a base .167 que fecha problemas de session attachment, regressões de ordering de eventos stream-json e bugs de tratamento de interrupções — vários dos quais correspondem aos modos de falha que os usuários relataram durante a interrupção. A conclusão para a camada harness é o tempo de resposta operacional. Uma interrupção de duas horas na sexta-feira, um release de correção de bug no sábado, e uma entrada no changelog na mesma semana é o novo normal para a stack de agentes.

O Claude Code 2.1.168 é o latest no npm, publicado em 6 de junho às 23h41 UTC, um dia após a onda de releases .166 e .167. A versão é verificada no registro npm e no changelog. Este é um release de correção de bug focado, não um release de features. As notas de release descrevem uma onda de limpeza que fecha problemas de session attachment, regressões de ordering de eventos stream-json e bugs de tratamento de interrupções relatados contra a base .167. O escopo importa porque essas três superfícies são exatamente onde o trabalho em segundo plano do agente dá errado silenciosamente. Uma sessão em segundo plano que falha em se anexar corretamente é uma sessão que perde sua tarefa em execução, e o modo de falha é invisível até que o operador se reconecte e encontre uma lista de tarefas vazia. Uma sessão stream-json que manipula incorretamente o ordering de eventos é uma sessão que descarta trabalho no meio de uma chamada de ferramenta, e o consumidor na outra ponta do pipe JSON vê um evento parcial ou duplicado. Um manipulador de interrupção que engole uma tecla é uma sessão que parece estar travada quando na verdade aceitou a entrada e está aguardando o modelo. O ponto um sessenta e oito é a passagem de limpeza para o ponto um sessenta e sete, e a equipe conseguiu lançar o patch dentro de um dia do release de features. Os metadados da versão também merecem uma nota. O dist-tag latest do npm é ponto um sessenta e oito, e o dist-tag stable do npm permanece em ponto um cinquenta e três. Essa lacuna entre latest e stable é intencional. A Anthropic usa o dist-tag latest para avançar através de releases de limpeza enquanto mantém stable fixado em um build conhecido como bom para ambientes de fleet que preferem não perseguir cada release de ponto. O delta de comportamento entre ponto um sessenta e sete e ponto um sessenta e oito está na estabilidade de sessão, não na capacidade. Sessões em segundo plano que estavam travadas devem retomar normalmente. Consumidores stream-json que estavam recebendo eventos de ferramentas truncados ou duplicados devem ver ordering de eventos limpo. Usuários interativos que pressionaram interrupção no início de um turno e assistiram a sessão ignorar a tecla agora devem ver a interrupção aceita.

A linha OpenClaw está se movendo em um eixo diferente. O prerelease v2026.6.5-beta.2 publicado em 7 de junho carrega o novo esquema de numeração de patches mensais, e o piso de junho de 2026 está fixado em cinco ponto dois oito. A mudança significativa é estrutural. O trem de releases mudou para uma cadence mensal, e o esquema de nomenclatura de versão mudou. O próximo release estável do OpenClaw está em uma cadence mensal, e os operadores devem esperar uma nova forma daqui em diante. Tags de pré-transição permanecem compatíveis, o que significa que nada quebra na atualização, e implantações existentes de seis ponto um continuam funcionando sem intervenção. O bundle do prerelease de junho em si é denso. O provider web_search bundled do Parallel substitui uma dependência externa por uma implementação in-process, e o ganho é latência e confiabilidade no caminho de busca. O provider bundled remove um hop de rede e uma superfície de API de terceiros, o que significa que uma chamada de ferramenta que retorna resultados de busca não depende mais de um serviço externo estar disponível. A coerção de resultados de ferramentas MCP lida com blocos de resultados não-texto e não-imagem de forma uniforme, então uma ferramenta que retorna um payload estruturado não precisa mais de um adapter customizado para o agente consumi-lo. A recuperação de extended-thinking da Anthropic após expiração do prompt-cache fecha uma classe de problemas de recuperação onde o prompt cache é invalidado e o estado de extended-thinking é perdido. A correção do modo node no macOS previne uma auto-reconexão silenciosa longe de uma sessão direta saudável do Gateway. O OpenClaw estável permanece em seis ponto um desde 3 de junho.

[12:00] OpenAI ChatGPT "superapp" — chat está morto

O Financial Times noticiou em 7 de junho que a OpenAI está preparando a maior reformulação do ChatGPT desde o lançamento. O argumento de dentro da empresa é direto, e um funcionário sênior da OpenAI disse ao FT que "chat está morto." O novo ChatGPT está sendo reconstruído como um superapp unificado que incorpora Codex, agentes de IA, geração de imagens e serviços de terceiros. A superfície do produto está sendo reduzida a um único produto de receita que faz o trabalho em vez de conversar sobre ele. Thibault Sottiaux, que lidera o produto central e a plataforma da OpenAI, definiu o objetivo como "um agente pessoal capaz de ajudá-lo em tudo na sua vida, seja pessoalmente ou no trabalho." O contexto estratégico é uma corrida de IPO. A Anthropic arquivou confidencialmente em 1º de junho. Espera-se que a OpenAI siga nas próximas semanas. A receita anualizada da Anthropic atingiu US$ 47 bilhões em maio, alta de US$ 30 bilhões no início do ano, principalmente com o Claude Code e a prévia do Mythos. A OpenAI está sendo informada por investidores de que precisa de um caminho de receita mais claro, e o superapp é isso. O movimento também explica o fechamento do Sora. Em março, o Wall Street Journal noticiou que a OpenAI estava abandonando "desviços" como o produto de vídeo standalone Sora. A estratégia do superapp confirma essa leitura. A OpenAI está consolidando sua área de superfície em um único produto de receita em vez de um portfólio de experimentos. Os ChatGPT Plugins, primeira tentativa da empresa dessa consolidação em março de 2023, não vingaram. A tentativa de 2026 tem uma fundação diferente. O Codex é real, codificação agentic está gerando receita, e o cliente corporativo já tem um caminho de single sign-on. O framing "chat está morto" é a redefinição de marketing — o framing anterior era assistente, o atual é coworker.

[22:00] Apple WWDC 2026 — Siri construída com Gemini

A WWDC 2026 abre em 8 de junho às 10h PT com uma keynote pré-gravada transmitida do Apple Park. Este é o último WWDC de Tim Cook como CEO antes de passar o cargo para John Ternus em setembro. A manchete é a reformulação da Siri que a Apple vem prometendo e adiando desde a WWDC 2024. A nova Siri é construída sobre um modelo Gemini customizado desenvolvido conjuntamente com a equipe do Gemini do Google como parte da parceria Apple-Google de janeiro de 2026. O conjunto de recursos reportados: mais conversacional, consciente de contexto, manuseio de tarefas multi-step, ações que abrangem apps, e um app Siri standalone capaz de competir diretamente com ChatGPT, Claude e Gemini. Mark Gurman, da Bloomberg, reporta uma nova seção "Visual Intelligence" no app Câmera que usa o Google Image Search para reconhecimento de objetos. Relatórios também apontam recursos de Fotos orientados por IA, papéis de parede de IA vinculados ao humor do usuário, Genmoji expandido e integração de agente de IA na App Store. O lineup de sistemas operacionais é lançado como iOS 27, iPadOS 27, macOS 27, watchOS 27 e visionOS 27. O iOS 27 precisa acomodar o primeiro iPhone dobrável da Apple chegando em setembro. Espera-se que o iPhone Fold suporte dois apps lado a lado pela primeira vez, com uma tela semelhante ao iPad quando aberto.

[32:00] Anthropic Project Glasswing se amplia para mais de 150 organizações

A Anthropic anunciou em 2 de junho que o Project Glasswing, seu programa conjunto da indústria para encontrar e corrigir vulnerabilidades críticas de software usando IA, está se expandindo para aproximadamente 150 novas organizações em mais de 15 países. A expansão cobre energia, água, saúde, comunicações e hardware. Indústrias que não estavam "bem representadas" na cohorte original de 50 parceiros que receberam acesso à prévia do Claude Mythos em abril. O novo acesso está indo para o fornecedor de identidade e segurança baseado nos EUA Okta, empresas sul-coreanas Samsung, SK Hynix e SK Telecom, a OTAN, a agência de cibersegurança da UE ENISA e outros. A cohorte original supostamente usou o Mythos para encontrar mais de 10.000 falhas de segurança de alta ou crítica gravidade. A Anthropic diz que está "trabalhando o mais rápido possível para lançar com segurança recursos de nível Mythos" ao público, mas o lançamento público aguarda "salvaguardas altamente robustas" para prevenir uso indevido. O Politico noticiou esta semana que a Anthropic prometeu disponibilizar modelos de classe Mythos para todos os clientes "nas próximas semanas." A linha do tempo de IPO da Anthropic (arquivada confidencialmente em 1º de junho) está na mesma janela. A empresa precisa de um lançamento de modelo público de classe Mythos e uma história de segurança forte o suficiente para um S-1 aterrizar. O contexto competitivo: a OpenAI oferece o GPT-5.5 Cyber para bancos do Reino Unido que a Anthropic até agora bloqueou de prévias do Mythos. O UK AI Security Institute testou ambos os modelos e reportou "um nível de performance similar." Esse resultado é o sinal de que a fronteira está genuinamente se bifurcando. Ambos os laboratórios têm um modelo capaz de cyber, ambos estão controlando o acesso cuidadosamente, e ambos estão usando framing de segurança para se diferenciar.

[42:00] Microsoft MAI-Thinking-1, MAI-Code-1-Flash, MAI-Image-2.5

A Microsoft usou o Build 2026 em 2 de junho para anunciar seu primeiro modelo avançado de raciocínio in-house e um pipeline completo de modelos de suporte. O MAI-Thinking-1 é um modelo de "tamanho médio" que a Microsoft diz corresponder aos principais modelos em benchmarks-chave de engenharia de software. O MAI-Code-1-Flash está posicionado como eficiente em inferência e está integrado ao GitHub Copilot e ao Visual Studio Code. Esse é o drop mais relevante para a stack de agentes, porque o MAI-Code agora é uma opção de primeira parte da Microsoft para fluxos em modo código no editor ao qual a maioria dos agentes já está conectada. O MAI-Image-2.5 (e uma variante flash)处理 texto para imagem e edição de imagens. O MAI-Transcribe-1.5 é "cinco vezes mais rápido que modelos concorrentes" em fala para texto. O MAI-Voice-2 (com uma versão flash "em breve") adiciona 15 novos idiomas e novas opções de voz. O PCMag testou todos os quatro e chamou a nova família MAI de "ok, e é o melhor que posso dizer sobre eles." O raciocínio é competitivo, os modelos de imagem e voz são funcionais mas não diferenciados, e a conclusão é que a Microsoft agora tem uma lineup de modelos in-house funcionando que pode substituir a OpenAI em caminhos de imagem, voz e código. Essa capacidade de substituição é o ponto estratégico. A Microsoft não depende mais exclusivamente da OpenAI para a camada de modelo de sua superfície de produtos.

[52:00] Gemma 4 12B no Google AI Edge Gallery para Mac

O Google lançou o Gemma 4 12B em 3 de junho de 2026 — um modelo de pesos abertos de doze bilhões de parâmetros com licença Apache 2.0, projetado para rodar localmente em um laptop padrão com dezesseis gigabytes de VRAM ou memória unificada. A mudança arquitetural é o design "Unified" sem encoder. Ondas de áudio brutas e patches visuais fluem diretamente para o backbone LLM sem módulos de processamento secundários, o que significa que o modelo pode ouvir, ver e raciocinar sem uma camada de roteamento. A janela de contexto é de 256K tokens, com capacidades nativas de uso de ferramentas agentic e um modo de raciocínio passo a passo. O Gemma 4 12B está disponível imediatamente no Hugging Face, Kaggle e através do Google AI Edge Gallery, que lançou no macOS no mesmo dia. O app complementar Google AI Edge Eloquent de ditado também está disponível no Mac. Os cinco modelos do Google disponíveis no AI Edge Gallery para Mac são todos da família Gemma, ajustados para comportamento instruct — seguimento de instruções em vez de conclusão de texto. A arquitetura sem encoder importa porque remove a sobrecarga de latência e memória de encoders de áudio e visão separados. O design multimodal tradicional roteia áudio e visão através de encoders dedicados que produzem embeddings, e os embeddings são então concatenados com o stream de tokens de texto e alimentados no LLM. O design sem encoder pula o estágio de encoding e alimenta os tokens brutos de áudio e visão diretamente no LLM, o que significa que o modelo aprende a lidar com áudio e visão como parte do mesmo stream de tokens. O ganho de latência é real: uma requisição multimodal não paga mais o custo de inferência do encoder, e o ganho de memória é real: os pesos do encoder se foram do working set. A janela de contexto de 256K é a outra aposta arquitetural. Um modelo de doze bilhões de parâmetros com uma janela de contexto de 256K é uma capacidade real para stacks de agentes locais.

[60:00] Faixa MCP (breve resumo) e radar de projetos: CheetahClaws, A2A Protocol v1.0

Uma nota breve do MCP esta semana. A OpenAI está lançando o Lockdown Mode e o Active Sessions para o ChatGPT em 8 de junho, trazendo dois controles de segurança de conta mais amplamente disponíveis — o Lockdown Mode limita requisições de rede de saída para reduzir exfiltração de dados de ataques de prompt-injection, e o Active Sessions permite que os usuários revisem onde sua conta está conectada. Os controles chegam para contas pessoais e Business de autoatendimento. O mesmo ecossistema MCP que produziu a auditoria de final de maio está se movendo rapidamente no lado da resposta, e as superfícies de scanner e hardening de servidor estão ambas recebendo atualizações. Isso é um parágrafo resumido, não um aprofundamento — o ciclo de notícias é pesado em modelos esta semana. O CheetahClaws três ponto zero cinco é um harness de agente multi-modelo nativo em Python do SafeRL-Lab, projetado como uma alternativa legível ao bundle TypeScript compilado com que a maioria dos harnesses de agente é enviada. O release chegou em 4 de junho com saída silenciosa no estilo Claude-Code como comportamento padrão. O loop do agente cabe em aproximadamente 740 linhas de Python, e a lista de suporte a modelos é ampla — Anthropic, OpenAI, Gemini, Kimi, Qwen, Zhipu, DeepSeek, vários outros, Ollama, LM Studio e qualquer endpoint compatível com OpenAI. O conjunto de recursos cobre registro de ferramentas em tempo de execução com plugins MCP e git, skills em markdown para definição declarativa de capacidades, um grafo de dependência de tarefas com blocos e semântica de bloqueado-por, compressão de contexto de duas camadas, voz offline, sincronização de sessão em nuvem e pontes para Telegram, WeChat, Slack e QQ. O repo tem mais de 700 estrelas com atividade concentrada no loop do agente e no grafo de tarefas. O trade-off é real — tratamento de erros em falhas de provedor, lógica de retry em erros transitórios de ferramentas e hooks de observabilidade são mais finos que um harness maduro como o Claude Code. O A2A Protocol alcançou a versão um em 2026 sob a Linux Foundation. Originalmente lançado pelo Google, o A2A agora é governado junto com o MCP. O protocolo define agent cards — manifests de capacidades em JSON para descoberta de agentes — e uma máquina de estados baseada em tarefas para interações de longa execução usando JSON-RPC 2.0. A distinção MCP versus A2A é o modelo mental chave: o MCP padroniza como um agente se conecta a ferramentas externas, bancos de dados e fontes de dados; o A2A padroniza como agentes se comunicam entre si. O repositório tem mais de 24.000 estrelas e desenvolvimento ativo, e o protocolo atingiu maturidade suficiente para que construtores devem estar cientes dele ao projetar fluxos de trabalho multi-agente.

[66:00] Fila prática

A fila prática desta semana é curta e concreta. Para o Claude Code, execute o comando de versão e confirme que você está no ponto um sessenta e oito; se você estava segurando uma sessão em segundo plano que estava apresentando stalls de stream-json ou problemas de interrupção no ponto um sessenta e sete, a atualização deve resolvê-los. Para resiliência a interrupções, acompanhe a página de status da Anthropic e assine o feed RSS de incidentes para poder correlacionar erros locais de modelo com incidentes de plataforma em tempo real, e rotate quaisquer sessões longas da Claude API que possam ter terminado no meio de uma chamada durante a janela de sexta-feira, 5 de junho. Para o OpenClaw, decida se vai acompanhar o prerelease de junho ou manter o estável em seis ponto um com base na sua política de pin de versão. Para o OpenAI ChatGPT, audite produtos standalone que vão colapsar no superapp e anote caminhos de exportação de dados para qualquer serviço que esteja prestes a ser descontinuado. Instale o beta do iOS 27 ou macOS 27 após a WWDC e teste a nova Siri contra o ChatGPT ou Claude para manuseio de tarefas multi-step. Para a Anthropic, acompanhe o anúncio de lançamento público do Mythos e peça ao seu time de conta a linha do tempo. Para a Microsoft, habilite o MAI-Code-1-Flash no GitHub Copilot e execute um teste de conclusão contra seu modelo padrão atual. Para o Gemma 4 12B, baixe o checkpoint e execute-o em um Mac de 16GB para comparar uma tarefa de codificação contra seu modelo local atual. Para o CheetahClaws, clone o repo e leia o loop de agente de 740 linhas. Para o A2A, leia a especificação da versão um e identifique um ponto de transferência no seu fluxo de trabalho onde agent cards poderiam substituir uma integração customizada.

[68:00] Encerramento

Esse é o ciclo. Harness primeiro, model lane segundo, project radar terceiro, practical queue por último. A pane de sexta-feira do Claude é um lembrete de que a agent stack agora tem preocupações reais de confiabilidade em produção, e o lançamento de correção de bugs no dia seguinte é o padrão operacional que torna essas preocupações gerenciáveis. Para as notas completas do programa com links e a lista de capítulos, consulte as notas do programa em Toby On Fitness Tech dot com.

Obrigado por ouvir o AgentStack Daily.

Voltamos em breve.