
Hermes Agent v0.16.0 – Aplicativo Desktop, Codex 0.137 Multi-Agent v2, Claude Code Fallback Models e Gemma 4 12B no Stack Local
Hermes Agent v0.16.0 — "The Surface Release" — lança um verdadeiro aplicativo desktop nativo com conexão remota OAuth, entrada de arquivos arrastar e soltar e um painel de administração baseado em navegador. Codex 0.137 adiciona persistência de escolha de runtime multi-agente v2 e busca web paralela. Claude Code 2.1.166/2.1.167 introduz cadeias de modelo fallback e regras de negação de nome de ferramenta glob. Gemma 4 12B é o mais recente modelo de 12B de peso aberto do Google que roda localmente em um laptop com 16GB de VRAM. O radar de projetos cobre o protocolo A2A atingindo v1.0, Kimi Show notes: https://tobyonfitnesstech.com/pt/podcasts/episode-65/
🎧 Listen to EpisodeEpisódio 65 — 6 de junho de 2026
[00:00] Gancho do episódio
Hermes Agent v0.16.0 (v2026.6.5) lança "The Surface Release" em 6 de junho de 2026 — um aplicativo desktop nativo multiplataforma com conexão remota OAuth, entrada de arquivos por arrastar e soltar, e um painel administrativo web completo baseado em navegador, tudo isso enviado em 874 commits e 542 PRs mesclados desde v0.15.2. OpenAI Codex rust-v0.137.0 adiciona persistência de escolha de runtime multi-agente v2 por thread, pesquisa web independente paralela e controles de limite de crédito empresarial. Claude Code 2.1.166 introduz cadeias de modelos de fallback configuráveis de até três modelos e regras de negação de nome de ferramenta glob, com 2.1.167 seguindo como uma versão de correção de bugs. Gemma 4 12B é o lançamento de peso aberto do Google em 3 de junho que coloca um modelo multimodal sem codificador de 12B parâmetros no ponto ideal de 16GB de VRAM para fluxos de trabalho de agentes locais. O radar de projetos cobre A2A Protocol v1.0 como a camada formal de interoperabilidade de agentes, Kimi Code CLI como um agente de codificação de terminal nativo em TypeScript, e o índice de recursos curados awesome-ai-agents-2026.
[02:00] Hermes Agent v0.16.0 — aplicativo desktop nativo, conexão remota OAuth e painel administrativo web
Hermes Agent v0.16.0 é a versão que muda a forma como o Hermes encontra o desenvolvedor. O destaque principal é um verdadeiro aplicativo desktop Electron nativo — não um wrapper de terminal, não uma aba web — que instala como qualquer outro aplicativo macOS, Linux ou Windows e se atualiza no local a partir do interior do aplicativo. A GUI desktop oferece uma janela de chat adequada com streaming, uma lista de sessões que você pode arquivar e pesquisar, arquivos por arrastar e soltar em qualquer lugar da área de chat, colagem de imagem da área de transferência, uma paleta de comandos Cmd+K e um seletor de modelo na barra de status. Se você tem falado para colegas não técnicos "isso é um agente CLI" e observado seus olhos vidrados, agora você pode simplesmente enviar a eles um instalador.
O aplicativo desktop não precisa executar o Hermes localmente. Aponte-o para um gateway Hermes remoto — seu homelab, um servidor hospedado, o servidor de um colega — e ele conecta via WebSocket seguro, autenticando com OAuth ou nome de usuário/senha. Sem complicação com flags --insecure ou tokens de sessão copiados manualmente. Cada perfil pode direcionar seu próprio host remoto, e você pode executar sessões simultâneas em vários perfis ao mesmo tempo. Esta é a história de conexão remota que implantações empresariais e de equipe do Hermes estavam esperando.
O painel web ganhou um painel administrativo completo baseado em navegador. Você obtém gerenciamento de catálogo MCP, configuração de canais de mensagens, armazenamento de credenciais, gerenciamento de webhooks, configuração de memória e login OIDC ou nome de usuário-senha conectável — tudo de um navegador sem tocar na CLI. A configuração inicial agora tem um caminho "Configuração Rápida via Nous Portal" que leva você de instalação a primeira mensagem em segundos, o que é importante para onboarding de novos usuários ou avaliação do Hermes em um ambiente novo.
O conjunto padrão de habilidades foi reduzido ao que você realmente precisa. NVIDIA/skills entrou nas opções do Skills Hub confiável. O seletor de modelo agora é pesquisável com busca fuzzy em todos os lugares — desktop, web, TUI e CLI — o que parece trivial até você ter uma longa lista de modelos e sem pesquisa. /undo finalmente permite desfazer os últimos N turnos, que é a funcionalidade de qualidade de vida que os usuários solicitaram desde o primeiro lançamento.
Nos bastidores, dois fechamentos de bug P0 e 62 P1 acompanham. A rodada de segurança vale a pena notar individualmente: CVE-2026-48710 fixa a dependência do Starlette em uma versão específica, o endurecimento off-loop de SSRF fecha uma classe de vetores de falsificação de solicitação do lado do servidor em caminhos de requisição de plugins e provedores, e a remoção de credenciais de subprocesso garante que credenciais não vazem para ambientes de processos filhos.
Lista prática de atualização: baixe e instale o aplicativo desktop para seu sistema operacional; teste o login OAuth contra um gateway remoto se você tiver um; explore o painel administrativo web para auditar servidores MCP, canais e credenciais; execute a Configuração Rápida via Nous Portal em uma instalação nova para comparar a nova experiência de primeira execução; e verifique se /undo funciona para os últimos N turnos em sua sessão.
[16:00] Codex rust-v0.137.0 — multi-agente v2, pesquisa web paralela e controles empresariais
Codex rust-v0.137.0 publicado em 4 de junho de 2026 como a tag estável mais recente da CLI, duas versões após a baseline rust-v0.135.0 do EP063. A mudança mais arquitetonicamente significativa é multi-agente v2 com persistência de escolha de runtime: cada thread gerada agora carrega sua própria escolha de runtime adiante, e agentes gerados obtêm follow-up e padrões de metadados mais limpos. Isso significa que quando uma sessão Codex pai gera um agente filho, o filho não perde seu lugar quando a sessão pai passa — a escolha de runtime permanece com a thread, não apenas com o processo pai. Para fluxos de trabalho de orquestração multi-agente, isso é a diferença entre um agente que se mantém junto através de uma passagem e um que silenciosamente perde contexto.
Suporte a keybinding F13-F24 no TUI e colagem em menus pesquisáveis melhoram a experiência do terminal para usuários avançados que usam layouts de teclado estendidos. Fluxos empresariais e administrativos agora mostram limites de crédito mensais e podem aplicar bundles de configuração gerenciados na nuvem, incluindo workspaces EDU — a visibilidade do limite de crédito fecha uma lacuna onde operadores não podiam ver gastos até a chegada da fatura.
Fluxos de trabalho de plugins ganharam saída legível por máquina codex plugin list --json e sugestões de catálogo remoto em cache. A saída legível por máquina significa que você pode canalizar listas de plugins para scripts, pipelines CI ou ferramentas de gerenciamento de frota sem analisar texto legível por humanos. Sugestões de catálogo remoto em cache aceleram o fluxo de descoberta de plugins evitando chamadas de rede repetidas.
Ferramentas web e de imagem hospedadas estão disponíveis em mais fluxos de modo código, com pesquisas web independentes agora capazes de executar em paralelo. Pesquisa web independente paralela significa que o Codex pode disparar múltiplas consultas de pesquisa simultaneamente e sintetizar resultados em vez de executá-las sequencialmente — uma vitória real de latência para fluxos de trabalho com uso intenso de pesquisa. Solicitações de permissão e aprovações agora carregam identidade de ambiente, o que fecha uma lacuna onde uma permissão concedida em um contexto poderia incorretamente se aplicar através de limites de contexto. A confiabilidade da plataforma melhorou para inicialização de aplicativos macOS e inicialização SQLite Windows, retomada de thread e atualizações de configuração de sandbox.
Lista prática de atualização: atualize o Codex para rust-v0.137.0; teste uma sessão multi-agente para verificar se a escolha de runtime persiste corretamente entre spawn e resume; execute codex plugin list --json para ver o formato de saída legível por máquina; teste pesquisa web paralela em um fluxo de modo código; verifique a nova exibição de limite de crédito mensal em fluxos empresariais/admin.
[26:00] Claude Code 2.1.166/2.1.167 — cadeias de modelo fallback e regras de negação de nome de ferramenta glob
O latest npm do Claude Code agora é 2.1.166 e 2.1.167, seguindo o 2.1.165. A versão 2.1.166 é a versão com funcionalidades com duas adições visíveis para operadores. O destaque principal é uma nova configuração fallbackModel que permite configurar até três modelos de fallback tentados em ordem quando o modelo primário está sobrecarregado ou indisponível. A flag --fallback-model agora também se aplica a sessões interativas, não apenas às em segundo plano — o que significa que sessões de terminal interativas também podem automaticamente fazer a transição para o próximo modelo na cadeia quando o primário satura. Isso muda como você lida com indisponibilidade de modelo: em vez de um único prompt falhar quando uma API está em capacidade, o Claude Code automaticamente tenta o próximo modelo que você configurou.
Suporte a padrão glob em posições de nome de ferramenta de regras de negação é a segunda funcionalidade. Usar "*" nega todas as ferramentas. Regras allow rejeitam globs não-MCP, e nomes de ferramentas desconhecidos em regras de negação agora alertam na inicialização em vez de aceitar silenciosamente regras malformadas. O alerta de inicialização para nomes de ferramentas desconhecidos é a melhoria amigável para operadores: agora você sabe na inicialização se uma regra de negação está mal configurada em vez de descobrir quando a regra falha em disparar.
A versão 2.1.167 é puramente correções de bugs e melhorias de confiabilidade — a onda de higiene que mantém o trem de releases limpo entre versões com funcionalidades.
Lista prática de atualização: adicione fallbackModel à sua configuração do Claude Code com duas ou três alternativas ordenadas por preferência; teste a cadeia temporariamente tornando seu modelo primário indisponível e verificando se o fallback é acionado corretamente; use "*" em uma regra deny para testar o bloqueio completo de ferramentas; verifique se nomes de ferramentas desconhecidos em regras deny produzem avisos na inicialização; e atualize para 2.1.167 para as correções de bugs mais recentes.
[34:00] Gemma 4 12B — modelo multimodal sem encoder no ponto ideal de 16GB de VRAM
O Google lançou o Gemma 4 12B em 3 de junho de 2026 como um checkpoint open-weight do Apache 2.0 com uma janela de contexto de 256K, projetado para trazer inteligência multimodal agentic diretamente para laptops para fluxos de trabalho locais. A decisão arquitetural chave é a entrada multimodal sem encoder: visão e áudio fluem diretamente para o backbone do LLM em vez de passar por um encoder multimodal separado. Este é o mesmo padrão arquitetural que permite que grandes modelos multimodais caibam em contagens menores de parâmetros — ao remover a sobrecarga do encoder, o modelo 12B pode processar entradas de imagem e áudio sem um estágio de processamento separado que adiciona parâmetros e latência.
O desempenho em benchmarks é descrito como se aproximando do modelo de 26B do Google em tarefas de raciocínio avançado, o que colocaria um modelo 12B competitivo com modelos do dobro do seu tamanho nos benchmarks que importam para fluxos de trabalho agentic. O posicionamento para fluxos de trabalho agentic é explícito: processamento autônomo de dados, insights visuais e construção de webpages são listados como casos de uso alvo. O Google AI Edge fornece o caminho para implantação local em hardware de laptop com 16GB e 32GB de VRAM.
Para o stack de agentes, o Gemma 4 12B é o modelo open-weight de 12B mais realista para uso de coding-agent local em hardware de consumo. Ele muda a aparência dos fluxos de trabalho agentic local-first quando o modelo e os pesos permanecem na sua máquina — sem latência de API, sem dados saindo do seu ambiente, sem custo por token. A janela de contexto de 256K significa que ele pode lidar com codebases grandes ou documentos longos sem o chunking de contexto que modelos com janelas menores requerem.
Lista prática de atualização: baixe o checkpoint do Gemma 4 12B do Hugging Face e execute-o através do LM Studio ou Ollama em um laptop com 16GB de VRAM; compare a saída de uma tarefa de codificação com seu modelo local atual; teste o contexto de 256K em uma codebase longa ou tarefa de compreensão de documentos; e use o Google AI Edge para o caminho de implantação local gerenciado se preferir uma instalação de um comando.
[42:00] Kimi Code CLI — agente de codificação nativo de terminal em TypeScript com suporte nativo a MCP
A Moonshot AI lançou o Kimi Code CLI em 5 de junho de 2026 como um agente de codificação AI de terminal de código aberto sob licença MIT escrito em TypeScript. O projeto é o sucessor do antigo kimi-cli e é distribuído via npm ou um script de instalação único que não precisa de Node.js pré-instalado. No macOS ou Linux: curl -fsSL https://code.kimi.com/kimi-code/install.sh | bash. No Windows: irm https://code.kimi.com/kimi-code/install.ps1 | iex. A instalação global via npm requer Node.js 24.15.0 ou posterior.
O Kimi Code CLI lê e edita código, executa comandos shell, pesquisa arquivos, busca páginas web e escolhe seu próximo passo baseado em feedback — o loop padrão de coding agent. Logo de fábrica ele funciona com os modelos Kimi da Moonshot AI e pode ser configurado para usar outros provedores compatíveis. O modelo de execução orientado a feedback executa operações apenas leitura automaticamente e pede confirmação para edições de arquivo ou comandos shell — um fluxo de aprovação que mantém ações arriscadas sob controle do desenvolvedor.
Recursos notáveis incluem uma TUI rápida pronta em milissegundos, entrada de vídeo para drop de gravações de tela no chat, configuração de MCP nativa de IA via /mcp-config, subagentes para trabalho paralelo (subagentes coder, explore e plan em contextos isolados), e lifecycle hooks para gate de chamadas de ferramentas, auditoria de decisões ou gatilho de notificações. A configuração de MCP via /mcp-config é o recurso que o conecta ao stack de agentes: você pode adicionar e autenticar servidores MCP de dentro da CLI sem arquivos de configuração externos.
Versão 0.11.0 publicada em 5 de junho de 2026. O projeto tem 1.902 estrelas no GitHub e desenvolvimento ativo.
Lista prática de atualização: instale o Kimi Code CLI e verifique com kimi --version; conecte-o à sua chave de API Kimi ou OAuth da Moonshot AI; teste uma configuração de servidor MCP via /mcp-config; execute um subagente em paralelo contra uma tarefa de codebase; e compare a qualidade de execução com seu agente CLI atual.
[50:00] Protocolo A2A v1.0 — a camada formal de interoperabilidade de agentes
O Protocolo Agent-to-Agent atingiu v1.0 em 2026 sob a Linux Foundation, estabelecendo uma especificação formal para como agentes de diferentes frameworks se descobrem, estabelecem canais de comunicação e delegam tarefas. O protocolo define "agent cards" — manifestos de capacidade em JSON — para descoberta de agentes, e uma máquina de estados baseada em tarefas para interações de longa duração usando JSON-RPC 2.0. Originalmente lançado pelo Google, o A2A agora é governado pela Linux Foundation junto com o MCP.
A distinção MCP versus A2A é o modelo mental chave: o MCP padroniza como um agente se conecta a ferramentas externas, bancos de dados e fontes de dados — é sobre o que um agente pode fazer. O A2A padroniza como agentes se comunicam entre si — é sobre como agentes trabalham juntos. O MCP já é amplamente adotado no stack de agentes. O A2A v1.0 é o protocolo complementar que permitirá handover de agente cross-framework sem código de integração customizado para cada par.
O repositório a2aproject/A2A tem 24.153 estrelas e desenvolvimento ativo em 6 de junho de 2026. Para o stack de agentes, o A2A v1.0 é a camada de interoperabilidade que permitirá que uma sessão do Claude Code delegue a um agente Hermes, ou que um agente OpenClaw faça handover para uma thread do Codex — sem construir uma integração customizada para cada par. O protocolo atingiu maturidade suficiente para que construtores devam estar cientes dele ao projetar fluxos de trabalho multi-agente.
Lista prática de atualização: leia a especificação do A2A v1.0 no repositório GitHub a2aproject/A2A para entender a estrutura de agent card e a semântica da máquina de estados de tarefas; se você está construindo um fluxo de trabalho multi-agente, projete os pontos de handover de agente com agent cards do A2A em mente; e teste uma delegação de agente cross-framework se você tiver dois runtimes de agente diferentes disponíveis.
[58:00] Fila prática
Para o Hermes Agent, baixe o instalador do app desktop e execute-o contra seu gateway existente; teste a conexão remota OAuth se você tiver um Hermes hospedado; explore o painel de admin web para auditar servidores MCP e credenciais. Para o Codex, atualize para rust-v0.137.0 e teste a persistência da escolha de runtime multi-agent v2 através de um ciclo de spawn e resume. Para o Claude Code, adicione fallbackModel à sua configuração com duas ou três alternativas; teste a regra deny de glob "*" para bloqueio completo de ferramentas. Para o Gemma 4 12B, baixe o checkpoint do Hugging Face e execute-o em uma máquina com 16GB de VRAM; compare uma tarefa de codificação com seu modelo local atual. Para o Kimi Code CLI, instale-o e conecte um servidor MCP via /mcp-config. Para o A2A, leia a especificação v1.0 e identifique um ponto de handover multi-agente no seu fluxo de trabalho onde agent cards do A2A poderiam substituir uma integração customizada.