Episode 49: Briefing Técnico Operacional em Agentes de

[00:00] Gemini Deep Research se torna um agente de segundo plano em formato de API

O Agente Gemini Deep Research do Google agora está exposto através da API Gemini Interactions como um agente de preview em vez de uma chamada normal de modelo de uma única vez. O detalhe operacional importa: desenvolvedores iniciam uma tarefa com um agente como deep-research-preview-04-2026, definem execução em segundo plano, opcionalmente transmitem atualizações em stream, e tratam o resultado como um job de múltiplas etapas que pode planejar, pesquisar, ler, sintetizar e retornar artefatos intermediários. A stack suporta Google Search por padrão, servidores MCP remotos com headers para autenticação, inputs multimodais como imagens e PDFs, outputs de imagens geradas nos passos de resposta, e roteamento de modelos através do Gemini 3.1 Pro Preview. Para construtores, o padrão de design é mais próximo de um workflow durável do que de um chat completion: salvar o ID da interação, consumir eventos de stream, retomar com o último event ID após uma conexão perdida, e esperar latência na escala de minutos e variância de custo orientada por ferramentas. A recomendação é encapsular isso atrás de uma fila de jobs, um caminho de cancelamento, controles de orçamento, UI de auditoria de fontes e tratamento explícito para documentos não confiáveis porque o agente pode ler texto oculto em arquivos ao fundamentar a pesquisa.

[09:00] OpenAI Agents Python 0.17.1 fortalece sandboxes, traces, sessões e aprovações em tempo real

O SDK Agents Python v0.17.1 da OpenAI é o tipo de release patch que operadores de agentes devem ler com atenção. As correções de sandbox limitam extração de arquivos, validam subcaminhos de repositório Git, preservam aliases de raiz do repositório e expõem detalhes de erro do provider. Essas mudanças definem o limite entre material de origem local confiável e o que é copiado para um ambiente de execução. As correções de tracing tornam o shutdown best-effort, previnem que erros de exportador matem o worker de batch e protegem span IDs no-op, o que melhora a confiabilidade de observabilidade durante saídas de processo e falhas parciais de telemetria. As correções de sessão preservam IDs de ferramentas hospedadas em sessões de conversa da OpenAI, ignoram registros de sessão corrompidos e mantêm timestamps de metadados consistentes entre stores baseadas em MongoDB e Redis. As correções em tempo real limitam aprovações de ferramentas por chave qualificada, acordam iteradores ao fechar, preservam partes de output de áudio e evitam mutar buffers de áudio de propriedade do chamador. O conselho prático de migração é fazer upgrade se você executa agentes em sandbox ou agentes em tempo real, então testar importações de arquivo, materialização Git, falha de exportação de trace, retomada de sessão, roteamento de aprovação e qualquer caminho de schema estrito que dependa de compatibilidade com Chat Completions.

[18:30] vLLM 0.20.2 transforma confiabilidade de serving em uma investigação de kernel e cache

vLLM v0.20.2 é um patch compacto de serving, mas aponta para os modos de falha que importam quando modelos grandes de MoE e multimodais são realmente implantados. A atenção esparsa do DeepSeek V4 recebe uma correção para um hang de MTP=1 ao reativar o caminho top-k persistente no Hopper e garantindo que o kernel memset execute no momento de captura do CUDA graph independentemente do comprimento máximo de sequência. Isso é uma questão de agendamento e ordem de captura, não um problema de qualidade de modelo. O release também corrige um erro do gerenciador de KV cache do mecanismo V1 onde blocos KV podiam falhar em alocar, que é exatamente a classe de bug que aparece apenas sob certos padrões de pressão de comprimento de sequência, batch e cache. Para gpt-oss, o patch conecta metadados de dimensão oculta sem padding através de um fake MoE op para que MXFP4 possa sobreviver ao torch.compile; para Qwen3-VL, remove um check de limite de deepstack que poderia falhar sob carga pesada. Construtores devem tratar isso como um lembrete para testar upgrades de inferência com contextos longos, carga multimodal, caminhos quantizados, configurações de CUDA graph e parsers específicos de modelo antes de rolling para produção.

[27:00] Strands TypeScript 1.1 expande a superfície de controle de runtime para aplicações de agentes

Strands Agents TypeScript v1.1.0 é útil porque torna comportamento de runtime previamente implícito mais configurável e observável. Campos de hooks agora aparecem em torno de chamadas de ferramenta e após invocação, com ordenação opcional de hooks e um campo de decisão AfterTools end-turn. O suporte MCP ganha mais forma de produção através de paginação de listTools(), logs de servidor, getters de metadados, controles fail-open e limpeza Symbol.asyncDispose para clientes. Gerenciadores de conversa ganham compressão proativa de contexto, execução de graph e swarm ganha timeouts, requisições Bedrock ganham controle de timeout, e agentes locais expõem identidade de modelo. O release também inclui interrupts de human-in-the-loop, offload de resultados, nomes de ferramentas inválidos normalizados, trabalho de output estruturado para o bridge WASM, testes de contrato WASM e tipos de estratégia de retry/backoff de modelo. O aprendizado para operadores é que um SDK de agentes é cada vez mais um runtime: precisa de eventos de lifecycle, semântica de limpeza, política de retry, controle de pressão de contexto, política de timeout e pontos de inspeção para que aplicações possam recuperar de listas de ferramentas longas, chamadas lentas de modelo, resultados grandes demais e pausas de aprovação humana sem perder estado.

[35:30] Checklist de implementação para equipes adotando essas atualizações

Se você está construindo com essas APIs esta semana, separe chamadas síncronas de modelo de jobs de agente em segundo plano. Gemini Deep Research deve rodar atrás de IDs de interação armazenados, lógica de stream-resume, orçamentos de ferramentas e avisos de segurança de documentos. Upgrades de Agents SDK devem ter testes de regressão para grants de arquivo de sandbox, limites de arquivo, subcaminhos Git, falha de exportador de telemetria, corrupção de sessão e identidade de aprovação em tempo real. Upgrades de serving do vLLM devem ser benchmarkados contra o acelerador exato, CUDA graph, tamanho de cache, quantização, multimodal e perfil de comprimento de sequência que você usa em produção, não apenas um prompt simples de smoke. Controles de runtime no estilo Strands são um prompt para instrumentar seus próprios agentes em torno de lifecycle de chamadas de ferramenta, compressão de contexto, timeout de graph, limpeza e política de retry. A avaliação: Gemini Deep Research é alto impacto mas precisa de encapsulamento de workflow; OpenAI Agents 0.17.1 é um forte upgrade de segurança e confiabilidade; vLLM 0.20.2 é importante para operadores servindo os modelos afetados; Strands 1.1 é mais valioso para equipes que precisam de mecânicas explícitas de runtime de agente em vez de um wrapper fino de modelo.