Episode 74: OpenAI Codex 0.142 Estável, Suite de Segurança

Episódio 074 — 22 de junho de 2026

[00:00] Gancho do episódio

OpenAI Codex 0.142 é o novo estável, com créditos de reset de limite de uso, superfícies de plugins organizadas e orçamentos de tokens de rollout configuráveis que tornam menos provável que uma execução longa de agente morra em um limite de orçamento. OpenAI Daybreak pousou no mesmo dia, emparelhando Codex Security com um novo modelo GPT-5.5-Cyber e lançando Patch the Planet, uma iniciativa que emparelha revisão assistida por IA com mantenedores humanos para reparo de vulnerabilidades em código aberto. Samsung Electronics está distribuindo ChatGPT Enterprise e Codex para sua força de trabalho global. Nex AGI's Nex-N2-Pro está agora no OpenRouter como uma mistura de especialistas de 397B em uma base Qwen3.5. sqlite-utils 4.0rc1 adiciona migrações de esquema e transações aninhadas. iOS 27 traz recursos práticos de IA abaixo da superfície da Siri, SpaceX fechou um acordo de computação de $150M por mês com a Reflection AI, e a Groq confirmou uma rodada de $650M. O padrão de agente "loopy", onde um enxame de agentes é executado continuamente em segundo plano, está começando a aparecer em produção.

[02:00] Lançamento estável do OpenAI Codex 0.142

[ALLOY]: A OpenAI lançou o Codex 0.142 como o novo estável, alguns dias após a linha de pré-lançamento 0.142 começar a ciclar. Esta é a versão que a maioria das equipes vai fixar para o próximo ciclo, e traz três mudanças que alteram como a CLI se comporta dentro de uma execução longa.

[NOVA]: A primeira são os créditos de reset de limite de uso. O comando /usage agora pode mostrar e resgatar créditos de reset ganhos, com confirmação, retentativa e estados de disponibilidade atualizados. Na prática, isso significa que um agente atingido por um limite de taxa no meio da execução pode se recuperar na mesma sessão em vez de esperar em um timer global.

[ALLOY]: A segunda é a organização de plugins. O comando /plugins agora agrupa plugins remotos em OpenAI Curated, Workspace e Compartilhado comigo, e turnos elegíveis podem recomendar e instalar plugins relevantes. O ponto não é tanto o agrupamento cosmético, mas sim que recomendação e instalação agora têm uma superfície digitada e revisável em vez de uma etapa de instalação de forma livre.

[NOVA]: A terceira são os orçamentos de tokens de rollout configuráveis. A CLI agora pode rastrear o uso entre threads de agentes, fornecer lembretes de orçamento restante e abortar turnos quando um orçamento é esgotado. Para fluxos de trabalho de construção que executam uma thread do Codex durante a noite ou atrás de um harness de agente de codificação, isso transforma "a execução queimou silenciosamente o limite" em um limite explícito e recuperável.

[02:08] OpenAI Daybreak lança Codex Security e GPT-5.5-Cyber

[ALLOY]: A OpenAI anunciou o Daybreak em 22 de junho, uma iniciativa de segurança coordenada que emparelha um novo modelo com uma nova superfície de agente. As principais peças são o Codex Security, um fluxo de trabalho de busca de vulnerabilidades, e o GPT-5.5-Cyber, um novo modelo treinado para raciocínio em cibersegurança.

[NOVA]: O mecanismo é o trabalho de vulnerabilidade ponta a ponta. O Codex Security é o loop do agente: ele encontra a vulnerabilidade candidata, valida e propõe um patch. O GPT-5.5-Cyber é o modelo que faz o raciocínio mais difícil sobre explorabilidade e correção do patch. A combinação é meant to compress the find-to-fix cycle that security teams usually run with separate tools and separate humans.

[ALLOY]: O ângulo interessante para construtores é o loop de validação de patch. Um modo de falha comum para patches gerados por IA é quando o modelo propõe uma correção que "parece certa" mas não fecha realmente a trajetória de exploração original. Com um modelo cibernético dedicado validando o patch, a superfície para esse modo de falha diminui. Isso importa para qualquer equipe que esteja enviando ferramentas de segurança assistidas por IA como parte de um pipeline de construção.

[NOVA]: O Daybreak está posicionado como um programa aberto e opt-in. A OpenAI diz que trabalhará com equipes de segurança para validar e divulgar descobertas de forma responsável, o que coloca a iniciativa na mesma categoria operacional que o Project Zero ou programas similares de divulgação coordenada.

[02:14] OpenAI Patch the Planet: reparo de vulnerabilidades assistido por IA para código aberto

[ALLOY]: A peça companheira do Daybreak é o Patch the Planet, uma iniciativa para ajudar mantenedores de código aberto a encontrar, validar e corrigir vulnerabilidades com IA e revisão especializada. A premissa é que a longa cauda de projetos de código aberto pouco mantidos é onde vive a maior parte do risco, e os programas de segurança existentes não cobrem bem essa cauda.

[NOVA]: O mecanismo é um fluxo de trabalho centrado no mantenedor. Mantenedores podem trazer um projeto para o programa, obter triagem assistida por IA em relatórios de vulnerabilidade recebidos e obter revisão especializada em patches propostos. A OpenAI está fornecendo o tempo do modelo e a superfície do fluxo de trabalho; a correção real pousa no repositório do mantenedor nos termos do mantenedor.

[ALLOY]: Para equipes de stack de construção, a implicação prática é que o cenário da cadeia de suprimentos melhora significativamente nos próximos seis a doze meses. Muito do código aberto em uma pilha típica de agentes é mantido por voluntários com largura de banda de segurança limitada, e este é o tipo de programa que inverte isso. Observe a cadência de divulgação nos próximos trimestres para ver quais projetos realmente limpam o backlog.

[02:18] Samsung Electronics traz ChatGPT Enterprise e Codex para funcionários

[ALLOY]: A Samsung Electronics está distribuindo ChatGPT Enterprise e Codex para funcionários em todo o mundo, tornando-se uma das maiores implantações de IA empresarial da OpenAI. A parte importante não é apenas a contagem de assentos. É a combinação de um assistente empresarial geral com uma superfície de agente de codificação dentro de uma empresa que abrange dispositivos de consumo, chips, displays, software e sistemas de manufatura.

[NOVA]: O Codex aqui não está sendo tratado como uma novidade. Está sendo colocado em fluxos de trabalho de funcionários onde mudanças de software tocam programas de hardware, plataformas internas, ferramentas de produtos e provavelmente uma longa cauda de scripts de automação. Isso cria um ambiente operacional muito diferente de uma pequena equipe usando um agente para corrigir um serviço web. Permissões, acesso a repositórios, políticas de revisão e trilhas de auditoria se tornam o trabalho real de integração.

[ALLOY]: A implantação também envia um sinal para outros grandes empregadores. Uma vez que uma empresa do porte da Samsung padroniza o ChatGPT Enterprise e o Codex, os compradores podem apontar para um padrão de referência na adoção de codificação agentiva em ambientes corporativos. A OpenAI se beneficia desse ponto de prova, mas os desenvolvedores devem ler isso como uma mudança nas expectativas: agentes de codificação estão passando de ferramentas opcionais para usuários avançados para infraestrutura interna sancionada.

[NOVA]: O risco é a adoção desigual. Um rollout global não significa automaticamente que todas as equipes obtêm a mesma qualidade de integração. As implantações úteis serão aquelas que conectam o Codex às superfícies de código-fonte corretas, rastreadores de problemas, portões de revisão e sistemas de conhecimento interno, sem dar acesso amplo por padrão.

[02:25] Nex AGI lista Nex-N2-Pro no OpenRouter como um MoE de 397B no Qwen3.5

[ALLOY]: A Nex AGI abriu o Nex-N2-Pro através do OpenRouter, dando aos desenvolvedores acesso via API a um novo modelo mixture-of-experts agentivo. Os números principais são impressionantes: 17 bilhões de parâmetros ativos de um total de 397 bilhões, construído na arquitetura Qwen3.5. Ele aceita entrada de texto e imagem, e a listagem o posiciona para cargas de trabalho agentivas onde contexto longo e intake multimodal são importantes.

[NOVA]: O mecanismo que importa é o roteamento de provedores. Como o Nex-N2-Pro está disponível através do OpenRouter, um desenvolvedor pode adicioná-lo atrás de um roteador de modelos existente em vez de esperar por uma integração direta com o fornecedor. Isso significa que o primeiro caminho de adoção não é uma reescrita completa da plataforma; é um novo alvo de modelo na mesma camada de inferência onde as equipes já comparam qualidade, latência, manipulação de contexto e custo.

[ALLOY]: A divisão entre parâmetros ativos e totais também é importante. Modelos mixture-of-experts podem oferecer uma capacidade total grande enquanto ativam apenas parte da rede por token. Na prática, a questão em aberto é se o roteamento do Nex-N2-Pro oferece melhor comportamento agentivo em sessões de codificação, pesquisa e planejamento multi-etapa, ou se o tamanho impressionante ajuda principalmente em prompts estilo benchmark.

[NOVA]: Para os desenvolvedores, vale a pena tratar isso como um novo candidato, não um novo padrão. O primeiro sinal útil virá de traces reais de agentes: seleção de ferramentas, recuperação após erros, manipulação de entrada visual, e se seu comportamento de contexto longo permanece coerente quando a sessão inclui código, requisitos, logs e decisões anteriores.

[02:32] sqlite-utils 4.0rc1 adiciona migrações e transações aninhadas

[ALLOY]: O sqlite-utils atingiu o estágio de candidato a lançamento da versão 4.0 com duas mudanças que importam para apps alimentados por agentes: migrações de esquema e transações aninhadas. O projeto já oferece aos desenvolvedores Python uma forma de alto nível para trabalhar com SQLite, incluindo transformações de tabela e criação automática de tabela a partir de payloads em formato JSON. O novo candidato a lançamento o empurra mais em direção à infraestrutura de aplicação.

[NOVA]: Migrações são o destaque porque SQLite frequentemente é a camada de estado local para protótipos, agentes, pequenos serviços, harnesses de avaliação e automação pessoal. Quando o esquema evolui, os desenvolvedores precisam de uma forma previsível de atualizar o banco de dados sem escrever lógica de configuração frágil à mão. Colocar migrações no sqlite-utils torna esse caminho mais explícito e mais fácil de integrar nos passos de deploy.

[ALLOY]: Transações aninhadas são o outro ganho prático. Fluxos de trabalho de agentes frequentemente executam uma cadeia de mudanças: armazenar uma execução, adicionar eventos de ferramentas, atualizar um status, anexar resultados de avaliação, e então recuperar se uma etapa falhar. O suporte a transações aninhadas dá ao código da aplicação controle mais preciso sobre operações parciais, especialmente quando funções auxiliares precisam de comportamento transacional mas podem rodar dentro de uma transação maior.

[NOVA]: A relevância para desenvolvedores é simples: o SQLite continua aparecendo em fluxos de trabalho sérios locais e de edge porque é rápido, portátil e fácil de distribuir. Uma camada sqlite-utils mais robusta torna esses fluxos de trabalho menos improvisados. A cautela é que ainda é um candidato a lançamento, então as equipes devem tratá-lo como uma prévia da API 4.0 antes de depender dele para migrações em produção.

[02:40] iOS 27 traz recursos práticos de IA fora da superfície da Siri

[ALLOY]: O iOS 27 está trazendo recursos práticos de IA no Mail, Fotos, Notas e Spotlight, em vez de colocar toda a atenção na Siri. A abordagem da Apple se apoia em Foundation Models no dispositivo para a maioria das solicitações, com Private Cloud Compute como fallback para trabalho mais pesado. Isso dá ao iPhone uma camada de IA mais ambiente: resumo, geração, busca semântica e ações acionadas por apps integradas em lugares onde as pessoas já trabalham.

[NOVA]: A superfície técnica para desenvolvedores são os App Intents. A Apple está adicionando tipos de intent para resumo, geração e busca semântica, o que permite que apps exponham ações à IA do sistema sem que cada app construa seu próprio backend de modelo na nuvem. Isso é um movimento muito Apple: o modelo se torna parte do runtime da plataforma, e os desenvolvedores ligam o comportamento do app à camada do sistema.

[ALLOY]: O Spotlight é especialmente importante porque faz a transição de busca por palavras-chave para embeddings vetoriais locais. Consultas em linguagem natural contra conteúdo no dispositivo fazem o telefone parecer menos um lançador e mais um sistema de recuperação pessoal. Se funcionar bem, o benefício não é um momento de chatbot. É encontrar a nota, foto, mensagem ou conteúdo de app certo com menos filtros explícitos.

[NOVA]: A questão em aberto é quanto disso se torna disponível para desenvolvedores de terceiros além de caminhos curados de App Intents. Se a superfície pública do SDK permanecer restrita, a Apple ganha privacidade e consistência, mas limita a experimentação. Se abrir mais capacidade, o iOS se torna um alvo de deployment importante para recursos de IA focados em privacidade que não precisam de serving na nuvem por padrão.

[02:50] SpaceX fecha acordo de computação de $150M/mês com a Reflection AI

[ALLOY]: A SpaceX assinou um acordo de computação com a Reflection AI, um laboratório de IA open-source, no valor de $150 milhões por mês de 1º de julho de 2026 até 2029. A Reflection obtém acesso imediato aos mais recentes chips de IA GB300 da Nvidia e hardware de suporte no data center Colossus 2 da SpaceX perto de Memphis, Tennessee.

[NOVA]: O mecanismo é alocação de computação estilo hyperscaler direto, mas a escala é a história. $150M por mês sustentados ao longo de três anos é real, e a geração GB300 é o silício Nvidia de ponta atual para treinamento e inferência de IA. Isso dá à Reflection pista para treinar e servir em uma escala que laboratórios open-source geralmente têm que implorar para obter.

[ALLOY]: O ângulo interessante para quem acompanha o ecossistema de builders é o que isso diz sobre a economia dos neoclouds. O Colossus 2 é a investida da SpaceX para ser uma provedora de neocloud além do seu negócio de lançamentos, e um compromisso de longo prazo de um laboratório de IA real valida essa aposta. Para os builders, a implicação prática é que a capacidade dos neoclouds está começando a parecer uma camada sustentada do mercado de infraestrutura de IA em vez de um projeto paralelo.

[NOVA]: Fique de olho na combinação de GPUs no próximo trimestre. A alocação entre Reflection e GB300, o lead time dos racks GB300 novos e quaisquer acordos de acompanhamento com outros laboratórios vão nos dizer quanto demanda real existe pela capacidade de neocloud no topo da pilha de hardware.

[02:55] Groq confirma arrecadação de $650M e recontrata após o "não-acqui-hire" da Nvidia

[ALLOY]: A fabricante de chips de IA Groq confirmou uma arrecadação de $650M e está recontratando após o acordo de $20B da Nvidia que não foi uma aquisição. A narrativa no artigo do TechCrunch é que o acordo com a Nvidia não foi uma aquisição, mas sim um acordo de contratação, e a Groq usou a clareza pós-acordo para financiar a próxima fase como negócio de neocloud.

[NOVA]: O mecanismo é uma virada deliberada para neocloud. O silício de inferência LPU da Groq é bem adequado para servir de alta taxa de transferência e baixa latência, e o negócio de neocloud vende essa capacidade para equipes que não querem operar seu próprio hardware Groq. A arrecadação financia tanto o desenvolvimento contínuo de silício quanto a expansão operacional do lado neocloud.

[ALLOY]: O ângulo interessante para quem acompanha o ecossistema de builders é a estrutura do mercado de inferência. A Groq, junto com o acordo SpaceX-Reflection, sugere que estamos passando de um mercado dominado por Nvidia-direct e alguns hyperscalers para um mercado com múltiplos provedores especializados de inferência no topo. Isso dá mais material para a lógica de roteamento e dá aos builders mais lugares para colocar cargas de trabalho sensíveis a custos.

[NOVA]: O LPU da Groq não é um substituto para GPUs Nvidia em todos os casos, mas para servir arquiteturas de modelo específicas e perfis de latência, é uma opção real. Fique de olho nos anúncios de cobertura de modelos no próximo trimestre para ver quais modelos recebem suporte de primeira classe na Groq.

[03:00] O mundo da IA está ficando "loopy": enxames de agentes sempre ativos

[ALLOY]: Um artigo do TechCrunch esta semana descreveu a ascensão do padrão "loopy" em IA agentiva: em vez de um agente que roda quando um humano pergunta, um enxame de agentes é autorizado a trabalhar continuamente em segundo plano, pegando tarefas, tomando pequenas decisões e aparecendo apenas quando precisam de um humano.

[NOVA]: O mecanismo é um loop de agente de horizonte mais longo com um envelope de autonomia controlado. Cada agente no enxame tem um escopo definido, um orçamento de custos definido e uma regra de escalação definida. O usuário não está mais no loop síncrono de prompt-resposta; o usuário está no loop de revisão de resultados.

[ALLOY]: O ângulo interessante é a mudança operacional. Um deployment "loopy" parece mais um serviço gerenciado do que uma ferramenta de chat. Há um heartbeat, um log de auditoria, um kill switch, um painel de custos e um conjunto de check-ins agendados. Os agentes estão rodando enquanto o usuário dorme, e a revisão matinal é o checkpoint de humano no loop.

[NOVA]: Este é o padrão que o resto da pilha precisa alcançar. Os harnesses de agentes estão chegando lá, as camadas de memória estão chegando lá, os controles de custo estão chegando lá, e os orçamentos de tokens de rollout no Codex 0.142 são um exemplo da peça de controle de custo aterrizando. Fique de olho no próximo trimestre para o primeiro produto de agente "loopy" de nível de produção voltado para builders individuais, não apenas equipes enterprise.

[10:00] GitHub Project Radar: Cursor-Talk-To-Figma-MCP, Firecrawl MCP, Semble

[ALLOY]: O radar de projetos do GitHub neste ciclo é pesado na superfície de ferramentas de agente, o que faz sentido dado o resto do episódio. Três repos que vale a pena conhecer: cursor-talk-to-figma-mcp da Grab, o servidor MCP oficial da Firecrawl e o Semble da MinishLab para busca de código amigável para agentes.

[NOVA]: O Figma MCP da Grab dá a qualquer agente compatível com MCP uma superfície tipada para um arquivo Figma. Um agente de codificação pode ler um design, entender a estrutura de componentes e enviar mudanças de volta. A parte interessante é o loop: mudanças de design fluem para o agente, o agente faz a mudança de código e o sistema de design permanece em sincronia. Experimente primeiro em um arquivo Figma pequeno para ver quão limpamente a viagem de ida e volta funciona.

[ALLOY]: O servidor MCP da Firecrawl expõe web scraping e busca como uma ferramenta MCP, o que significa que qualquer harness de agente que fale MCP pode fazer pesquisa com geração aumentada de recuperação sem precisar criar um scraper manualmente. Para um agente de codificação que precisa consultar docs de API ou verificar a versão mais recente de uma biblioteca, isso transforma uma tarefa multi-step de código cola em uma única chamada de ferramenta. O ponto não é que a Firecrawl é nova, é que agora ela é de primeira classe na superfície de ferramentas de agente.

[NOVA]: Semble é a escolha de busca de código do ciclo. Ele indexa um repo e dá aos agentes uma primitiva de busca rápida que usa uma fração dos tokens de um fluxo grep-mais-leitura. Para sessões longas em repos grandes, essa economia de tokens se compõe. O teste interessante é se a qualidade do índice do Semble se mantém em codebases bagunçadas e do mundo real ou apenas em exemplos OSS limpos.

[10:30] Fila prática

[ALLOY]: Das histórias de hoje: O Codex 0.142 libera uma versão estável com o orçamento de tokens de rollout e o resgate de crédito de reset que finalmente tornam uma execução de agente longo uma coisa limitada. O Daybreak e o Patch the Planet juntos sugerem que a segurança assistida por IA está passando de pesquisa para divulgação coordenada. O deployment enterprise da Samsung é o maior sinal até agora de que agentes de codificação são infraestrutura sancionada, não brinquedos para power users. Nex-N2-Pro é o novo MoE grande que vale a pena rotear para o seu harness de avaliação, sqlite-utils 4.0rc1 é o lugar certo para começar a testar migrações de schema em um projeto paralelo antes da versão estável, e o padrão de agente loopy é o que os produtos de agente do próximo ano vão parecer.