Episode 73: OpenClaw v2026.6.9, Hermes v2026.6.19, Claude

Episódio 073 — 21 de junho de 2026

[00:00] Gancho do episódio

O Relatório de Lançamento do Agent Stack para este ciclo cobre OpenClaw v2026.6.9, Hermes Agent v2026.6.19 e Claude Code CLI 2.1.176, três releases estáveis que chegaram no mesmo dia e moldam como os arreios agentivos estão sendo montados agora. OpenClaw v2026.6.9 traz uma orquestração de ferramentas mais firme e melhoria na exposição de erros, enquanto Hermes Agent v2026.6.19 shipped um planejador renovado e um tratamento mais robusto de traces de múltiplas etapas. Claude Code CLI 2.1.176 completa o trio com uma instalação mais leve e um caminho de cold-start mais rápido para sessões shell-driven. Além das atualizações de arreios, a Poolside empurrou ambas as pontas da sua linha de codificação: Laguna M.1 agora está disponível via API como o modelo agentivo de codificação principal, e Laguna XS.2 chega no OpenRouter como uma variante compacta com tool-calling voltada para cargas de trabalho sensíveis a custos. A OpenAI também está lançando novas análises de uso e controles de gastos atualizados para o ChatGPT Enterprise, dando aos administradores breakdowns de custos mais claros e tetos configuráveis.

[02:00] Relatório de Lançamento do Agent Stack: OpenClaw v2026.6.9; Hermes Agent v2026.6.19; Claude Code CLI 2.1.176

Três releases estáveis chegaram neste ciclo e moldam como os arreios agentivos estão sendo montados agora. OpenClaw v2026.6.9 (publicado em 2026-06-21) shipped entrega Telegram mais rica — o caminho do canal agora envia HTML rico, preserva markdown rico e caminhos de stickers, renderiza rascunhos de progresso e saída de comandos de forma mais fiel, normaliza tabelas HTML com segurança e mantém menções e manipuladores spooled no caminho de entrega correto. A recuperação de agentes é mais confiável: retries, resultados terminais, uso após compactação, reparo de histórico de sessão e reconciliação de respostas agora mantêm mais turnos interrompidos ou parciais seguindo em direção a um resultado final visível. A integração com o Codex também está mais forte — aprovações automáticas de plugins, roteamento OAuth do GPT-5.3 Spark, exec em nó remoto como ferramenta dinâmica, e desmontagem de app-server mais confiável e resultados terminais. Hermes Agent v0.17.0 (v2026.6.19, o Reach Release) estende o Hermes por novos canais — iMessage via Photon, a rede de agentes Raft — e o aplicativo desktop ganhou capacidade substancialmente nova. Subagentes agora podem rodar em background, geração de imagens aprendeu a editar, e o modelo Composer do Cursor é alcançável através de uma assinatura xAI Grok. O dashboard ganhou um construtor de perfil completo, o navegador do Skills Hub foi reformulado, a ferramenta de memória teve uma atualização importante e o curator parou de gastar orçamento de modelo aux em cada execução de rotina. Claude Code CLI 2.1.176 completa o trio na tag estável. No nível da API e runtime, essas mudanças alteram o que os desenvolvedores podem configurar e depender por padrão; a questão para qualquer workflow de agente em produção é se os novos padrões melhoram ou quebram o caminho que você estava executando esta semana. As notas de release completas para cada arreio — incluindo orientação de deployment, a lista de pull requests mesclados e os créditos dos contribuidores — estão linkadas da fonte primária, e o contexto do changelog para cada tag é o que os desenvolvedores devem diff contra sua versão pinned atual antes de mudar o padrão em produção.

[02:40] Poolside lança modelo de codificação compacto Laguna XS.2 no OpenRouter

A Poolside empurrou o Laguna XS.2 para o OpenRouter esta semana, marcando o modelo de segunda geração na classe de tamanho XS dentro da série de agentes de codificação. O argumento é compacto sobre flagship: capacidades combinadas de tool calling e raciocínio em uma pegada pequena, com uma janela de contexto de 262.144 tokens que o coloca em território de contexto longo para cargas de trabalho de codificação agentiva. O detalhe mais relevante para desenvolvedores é o emparelhamento unificado de ferramenta e raciocínio — um endpoint expõe tanto invocação de ferramenta quanto raciocínio, o que simplifica a orquestração de loop de agente versus rotear requisições através de dois modelos separados. A classe de tamanho XS sinaliza o público-alvo: execuções de baixa latência e sensíveis a custos onde a economia por token importa mais do que a qualidade de raciocínio de fronteira. Para desenvolvedores de agentes executando workflows multi-arquivo ou multi-etapa, isso amplia o tier compacto no router junto com o que você já está roteando para classificação barata ou passes de planejamento. Fique de olho: benchmarks de latência em traces de codificação reais, e se a Poolside shipa rate limits específicos para tool-calling ou tiers de precificação para diferenciar XS.2 de modelos irmãos.

[03:40] Poolside: Laguna M.1 chega via API

Poolside: Laguna M.1 lands via API. Laguna M.1 é o modelo flagship de agente de codificação da Poolside (https://poolside.ai/), otimizado para tarefas complexas de engenharia de software. Projetado para workflows de codificação agentiva, suporta tool calling e raciocínio, com 256K... No nível do mecanismo, a mudança aparece na superfície da API e comportamento de runtime que desenvolvedores de agentes integram, e na configuração que o controla. A fonte primária carrega o detalhe técnico completo, incluindo notas de deployment e contexto do changelog. Por que importa agora: o agent stack se move rápido, e mudanças nesta camada determinam quais workflows são confiáveis versus frágeis. A questão prática para desenvolvedores é se isso muda um padrão que eles atualmente dependem, e a evidência inicial sugere que vale a pena avaliar contra cargas de trabalho reais. O que observar em seguida: releases de acompanhamento, resultados de benchmarks independentes, e quão rapidamente as ferramentas circumjacentes (integrações de SDK, provedores de inferência, revisões de segurança) adotam isso.

[04:35] Novos controles de uso e gastos atualizados para empresas

Novos controles de uso e gastos atualizados para empresas. A OpenAI introduz novos controles de gastos e análises de uso para o ChatGPT Enterprise, ajudando organizações a gerenciar custos e escalar IA com confiança. No nível do mecanismo, a mudança aparece na superfície da API e comportamento de runtime que desenvolvedores de agentes integram, e na configuração que o controla. A fonte primária carrega o detalhe técnico completo, incluindo notas de deployment e contexto do changelog. Por que importa agora: o agent stack se move rápido, e mudanças nesta camada determinam quais workflows são confiáveis versus frágeis. A questão prática para desenvolvedores é se isso muda um padrão que eles atualmente dependem, e a evidência inicial sugere que vale a pena avaliar contra cargas de trabalho reais. O que observar em seguida: releases de acompanhamento, resultados de benchmarks independentes, e quão rapidamente as ferramentas circumjacentes (integrações de SDK, provedores de inferência, revisões de segurança) adotam isso.

[05:29] 30 anos de controles de exportação falharam antes — e o Mythos?

Uma análise do TechCrunch de 19 de junho argumenta que 30 anos de controles de exportação dos EUA em criptografia e software de cibersegurança falharam em slowing their spread — e questiona por que o mesmo framework conteria o modelo de cibersegurança Mythos da Anthropic. O artigo posiciona o debate moderno como uma continuação de lutas anteriores de controle de exportação, onde software de uso duplo vazou, forkou e reimplementou independentemente da jurisdição. O mecanismo histórico que falhou: tratar código fonte ou binários compilados como o artefato controlado, quando a capacidade subjacente é um pequeno algoritmo que é re-derivado em qualquer lugar com compute. Para o Mythos, a questão em aberto é se pesos de modelos, compute de treinamento ou APIs de inferência hospedadas podem ser controlados de alguma forma — uma superfície muito mais difícil do que binários compilados. Retirada para desenvolvedores: assuma que capacidades de segurança de IA defensivas e ofensivas serão globalmente acessíveis, e trate a classificação de exportação de artefatos de modelos como um alvo em movimento. Observe em seguida: qualquer rulemaking do Departamento de Comércio sobre pesos de modelos de fronteira, e se a Anthropic publica uma política de uso que antecipe a questão regulatória.

[06:30] Baseten Supostamente Levantando $1.5B com Avaliação de $13B

A Baseten está supostamente fechando uma rodada de $1.5 bilhão com uma avaliação de $13 bilhões, segundo relatório do TechCrunch de 18 de junho. A startup de inferência de IA está levantando novamente apenas meses após sua rodada mega anterior, surfando a mudança mais ampla em direção a infraestrutura de inferência dedicada à medida que o serving de modelos se torna seu próprio segmento de mercado em vez de um recurso secundário de plataformas de treinamento. Para desenvolvedores, o sinal é que inferência não está mais bundled com provedores de modelos — é uma camada standalone com capital dedicado, stacks de serving dedicados e concorrentes dedicados como Baseten, Fireworks e Together. Observe como a Baseten se posiciona contra APIs de inferência de hyperscalers (Vertex, Bedrock, Azure AI) e se a rodada finalmente fecha na avaliação reportada de $13B. O mecanismo que vale a pena rastrear é o stack de serving específico para inferência: passes de compilação de modelos para produção, pooling de GPUs em hardware heterogêneo, e roteamento de requisições ajustado para padrões de tráfego de produção em vez de throughput de treinamento. É essa camada que o novo capital está financiando.

[07:27] Datasette Apps: Hospede aplicações HTML customizadas dentro do Datasette

Datasette Apps: Hospede aplicações HTML customizadas dentro do Datasette. Hoje lançamos um novo plugin para Datasette, datasette-apps, com este post de anúncio de lançamento no blog do projeto Datasette. Esse post tem o que, mas vou expandir um pouco aqui para fornecer o porquê. O TL;DR Datasette Apps são aplicações auto-contidas HTML+JavaScript que No nível do mecanismo, a mudança aparece na superfície da API e comportamento de runtime que desenvolvedores de agentes integram, e na configuração que o controla. A fonte primária carrega o detalhe técnico completo, incluindo notas de deployment e contexto do changelog. Por que importa agora: o agent stack se move rápido, e mudanças nesta camada determinam quais workflows são confiáveis versus frágeis. A questão prática para desenvolvedores é se isso muda um padrão que eles atualmente dependem, e a evidência inicial sugere que vale a pena avaliar contra cargas de trabalho reais. O que observar em seguida: releases de acompanhamento, resultados de benchmarks independentes, e quão rapidamente as ferramentas circumjacentes (integrações de SDK, provedores de inferência, revisões de segurança) adotam isso.

[08:27] Dia Tranquilo no Envio de IA: Janela de Promoção AIE à Frente

O newsletter Latent Space marcou 20 de junho de 2026 como um dia lento de notícias de IA, sem drops de modelos principais ou releases de frameworks de agentes dominando o ciclo. O veículo usou a sala de respiração para um push promocional final na conferência AI Engineer (AIE), posicionando-a como o próximo checkpoint principal para anúncios focados em desenvolvedores. O mecanismo aqui é coordenação de release orientada por calendário: grandes laboratórios e mantenedores de frameworks tipicamente consolidam revelações em torno de keynotes de conferências, deixando a janela pré-evento deliberadamente quieta. Para desenvolvedores, isso significa que superfícies de API atuais, endpoints de modelos e versões de SDK estão estáveis o suficiente para commitar para as próximas 48-72 horas sem uma breaking change disruptiva em setups locais. O item de observação é a keynote de abertura da AIE, onde provedores de modelos e mantenedores de runtimes de agentes historicamente usam o slot principal para shipar implementações de referência e releases de versões pinned que se propagam pela documentação em horas. Quanto mais quieto o buildup, mais barulhenta a keynote tende a ser.

[09:24] Whittaker da Signal: Chatbots de IA não são seus amigos

Meredith Whittaker, presidente do Signal, usou uma entrevista em 20 de junho para rebater produtos que posicionam chatbots de IA como companheiros. Sua fala — "estes não são seus amigos, não são seres conscientes, não são interlocutores sencientes" — aponta para fornecedores que apostam em linguagem relacional em fluxos de onboarding, prompts de persona e UX conversacional. A intervenção ocorre num momento em que ferramentas de codificação agentivas e bots de suporte já estão integrados nos fluxos de trabalho diários de desenvolvedores, onde a linha entre ferramenta e colega está sendo ativamente borrada. O argumento de Whittaker: escolhas de design antropomórfico criam expectativas falsas sobre memória, intenção e reciprocidade, e a marca do Signal focada em privacidade dá à crítica um alcance incomum nos círculos de desenvolvedores. Para construtores, o mecanismo prático está no design de textos e prompts — prompts de sistema enquadrando o modelo como um par, strings de UI sugerindo relacionamento contínuo e recursos de memória simulando continuidade entre sessões. O que observar a seguir: se grandes provedores de modelos formalizarão orientações sobre enquadramento relacional em sua documentação para desenvolvedores, e se compradores empresariais começarão a sinalizar isso em aquisições.

[10:25] In the Weights lança como busca de vaidade focada em IA

Um novo serviço chamado In the Weights lançou em 20 de junho, apresentando-se como a resposta da era da IA para a busca de vaidade do Google. Ele atribui a cada usuário uma pontuação pessoal baseada em quão proeminentemente seu nome aparece nos parâmetros e dados de treinamento de modelos de IA de fronteira.

O mecanismo subjacente executa sondagens de inferência repetidas contra LLMs hospedados usando consultas de identidade, depois agrega taxas de acerto e contagens de frequência em uma única pontuação composta. A arquitetura trata o modelo como o índice de busca em vez da web, com uma estrutura de avaliação atrás de uma API de consulta que retorna detalhamentos por modelo junto com o número geral. A latência fica em segundos por sondagem.

Para desenvolvedores, isso recria a visibilidade do modelo como uma camada de métricas que não existia anteriormente como uma superfície productizada. Observem se a estrutura de pontuação e o protocolo de sondagem serão padronizados — se permanecerem opacos, o número é pura vaidade, se forem abertos, esperem novas ferramentas construídas em torno do ajuste de presença entre checkpoints de modelo.

[11:25] Fila prática

Das histórias de hoje: Para construtores, isso muda o que a pilha pode assumir por padrão. O lançamento do XS.2 oferece aos construtores uma opção compacta com contexto de 262K — útil para loops de agentes que passam bases de código grandes ou traces de ferramentas sem pagar o preço dos flagships. Para construtores, isso muda o que a pilha pode assumir por padrão. Para construtores, isso muda o que a pilha pode assumir por padrão. Isso sinaliza que as capacidades de cibersegurança de IA de fronteira se diffundirão globalmente independentemente dos EUA. A captação da Baseten sinaliza que inferência agora é um segmento de mercado financiado separadamente, significando mais plataformas de serviço concorrentes com diferentes tradeoffs de preço-desempenho. Para construtores, isso muda o que a pilha pode assumir por padrão. Um dia de shipping tranquilo é uma janela útil para consolidar notas sobre frameworks de agentes atuais e APIs de modelo antes do próximo ciclo de lançamento. O que isso significa para construtores: copy de produtos de agentes e prompts de sistema agora fazem parte da superfície de confiança. Para construtores que lançam produtos de IA, isso expõe uma nova categoria de métricas voltadas para o usuário — visibilidade de identidade relativa ao modelo — que pode se tornar um primitivo de marketing.