Episode 55: Codex 0.132.0, Claude Code 2.1.145, Gemini

Codex 0.132 y Claude Code 2.1 lideran el AgentStack Daily de hoy porque mueven superficies concretas de operadores: autenticación de SDK, esquemas de automatización reanudados, JSON de agente en vivo, IDs de traza, vistas previas de plugins y fortalecimiento de permisos.

[00:00] Apertura - comenzar con las superficies de operadores cambiadas NOVA y ALLOY abren con los cambios prácticos. Codex ahora tiene autenticación de SDK Python de primera clase y APIs de turnos más fáciles, mientras que Claude Code expone el estado de sesión en vivo como JSON y agrega linaje de agente a las trazas. Esto no es solo una actualización de número de versión. Cambia cómo los constructores programan agentes de codificación, reanudan automatizaciones, observan trabajo en segundo plano y detectan comportamiento inseguro de shell antes de que se convierta en un incidente.

[02:30] Lectura de lanzamiento - Codex 0.132 El cambio más grande de API en este lanzamiento de Codex es la superficie de autenticación del SDK de Python. Un cliente Python ahora puede manejar inicio de sesión con API key, inicio de sesión con navegador ChatGPT, flujos de código de dispositivo, inspección de cuenta y cierre de sesión sinoutsourcing del estado de autenticación a un wrapper de CLI. Eso importa para notebooks, trabajos de CI, herramientas internas y portales de desarrolladores alojados que necesitan iniciar turnos de Codex como un flujo de trabajo programático real en lugar de raspar comportamiento de terminal.

La API de turnos también se facilita para automatizaciones pequeñas. Los turnos de solo texto pueden pasar una cadena simple, y las ejecuciones con handle ahora devuelven un TurnResult más rico con elementos recopilados, tiempos y uso. Eso le da al código de orquestación de agentes un mejor objeto de retorno: qué pasó, cuánto tardó, qué costo tuvo y qué artefactos regresaron. La receta práctica es directa: usar el SDK de Python para puntos de entrada de herramientas controlados, mantener la CLI para trabajo local de repositorio y capturar TurnResult cuando necesites telemetría o una decisión descendente.

El cambio de codex exec resume --output-schema es el que hay que destacar para flujos de trabajo duraderos. Reanudar una sesión mantiene el contexto que hizo útil al agente, pero la salida aún puede restringirse a un esquema. Eso es el puente faltante para automatizaciones que necesitan tanto memoria como salida legible por máquina: triaje de issues, estado de migración, resumen de resultados de pruebas, o un reporte nocturno de salud del código pueden reanudar el mismo hilo y aún así devolver JSON validado.

Codex también fortalece el comportamiento de ejecutor remoto y servidor de app. El registro de ejecutor remoto puede usar autenticación estándar de Codex en lugar de una ruta de credencial de registro separada. Las sesiones remotas mantienen vivas las conexiones websocket y muestran rutas de diff relativas al repo nuevamente, lo que hace que el trabajo remoto de larga duración sea menos probable que parezca muerto o produzca parches ilegibles. Los turnos del servidor de app preservan la fidelidad de imagen solicitada, incluyendo imágenes locales de resolución original, a través de entradas de usuario y herramientas que producen imágenes. Eso es útil cuando un agente está inspeccionando capturas de pantalla, regresiones de UI, diagramas o artefactos visuales generados donde el contexto de baja resolución cambia la respuesta.

Las notas de riesgo son operativas. Las continuaciones de objetivos ahora se detienen cuando alcanzan límites de uso o bloqueos repetidos, así que los agentes deberían quemar menos tokens en un bucle trabado. La reproducción de TUI de multi-sesión mantiene las llamadas MCP en progreso marcadas como activas, y las respuestas de elicitación vuelven al hilo que las solicitó, lo que reduce la confusión entre hilos. Las instalaciones de Windows obtienen detección de instalación npm de codex doctor y binarios MSVC que no requieren DLLs de runtime de VC++ separados. Las pruebas de actualización deben cubrir inicio/cierre de sesión de Python, un turno de solo texto, campos de TurnResult, un reanudo restringido por esquema, estabilidad de websocket remoto, preservación de detalle de imagen y salida de doctor de Windows si esa plataforma importa.

[17:00] Lectura de lanzamiento - Claude Code 2.1 Esta actualización de Claude Code es más pequeña que el parche anterior, pero aterriza exactamente donde los operadores lo necesitan: inventario en vivo, trazabilidad, inspección de plugins y seguridad de shell. claude agents --json convierte la vista de agente en una interfaz programable. Las barras de estado, flujos de tmux-resurrect, selectores de sesión, dashboards y watchdog ahora pueden consultar sesiones de Claude en vivo sin analizar la UI de terminal. El título de la pestaña de terminal también muestra el conteo de entrada en espera, así que un agente en segundo plano que necesita atención humana es visible fuera del TUI.

La actualización de tracing es importante para equipos que ejecutan subagentes en segundo plano. Los spans de OpenTelemetry de claude_code.tool ahora incluyen agent_id y parent_agent_id, y el parenting de trazas está corregido para que los spans de subagentes en segundo plano aniden bajo el span de la herramienta Agent que los envió. Eso le da a los sistemas de observabilidad un árbol de linaje real: sesión principal, agente enviado, llamadas de herramientas anidadas, resultado. Es la diferencia entre "Claude usó una herramienta" y "este trabajador en segundo plano específico hizo la cosa lenta después de este turno padre."

El JSON de línea de estado ahora incluye información de repositorio GitHub y PR cuando se detecta. Eso hace que los prompts locales, líneas de estado de terminal y monitoreo externo sean más útiles durante trabajo de PR: el agente puede exponer en qué repositorio y pull request está operando sin una sonda separada de gh cada vez. Las pantallas Discover y Browse de /plugin ahora muestran los comandos, agentes, skills, hooks y servidores MCP/LSP de un plugin antes de la instalación. Eso es una mejora de seguridad y ergonomía: los constructores pueden inspeccionar qué contribuye un plugin antes de traerlo al runtime.

La corrección de permisos merece tiempo de antena explícito. Claude Code corrigió un bypass donde las asignaciones de variables simples a variables de entorno no permitlistadas en comandos Bash eran auto-aprobadas. Los sistemas de aprobación de shell a menudo se enfocan en nombres de comandos, pero las variables de entorno pueden redirigir herramientas, filtrar datos, cambiar comportamiento de autenticación o alterar rutas de ejecución. Después de actualizar, prueba una política de allowlist con una asignación de variable no allowlistada inofensiva y confirma que solicita en lugar de aprobar silenciosamente.

Otras correcciones suavizan el uso diario: los comandos slash de prompt de MCP ahora muestran uso de argumentos faltantes en lugar de errores crudos de validación de servidor; redimensionar/refocalizar ya no congela el spinner y tiempo transcurrido; los hints de resume de Windows PowerShell usan el separador de comandos correcto; push-to-talk de voz funciona en el panel de respuesta de vista de agente; las listas de tareas se renderizan en orden estable; los nombres de Agent Teams no-ASCII ya no envenenan headers de API; /review elimina una query GraphQL de Classic Projects deprecada; la validación de plugin detecta rutas de archivo bajo skills:; Read devuelve una vista parcial truncada en lugar de fallar completamente en overflow de token de archivo completo; y las skills bifurcadas detienen bucles infinitos de auto-reinvocación.

[29:00] Google Gemini - Gemini 3.5 Flash GA y Managed Agents La actualización de API de Gemini del 19 de mayo de Google lanza gemini-3.5-flash como el modelo GA de Gemini 3.5 Flash e introduce Managed Agents en la API de Gemini. La parte útil para los constructores no es solo el nombre del modelo. Managed Agents convierte la ejecución de agentes alojados en una superficie de API: una llamada provee un agente potenciado por el harness de Antigravity, le da un entorno Linux aislado, le permite usar herramientas y ejecutar código, y permite interacciones de seguimiento para reanudar con archivos y estado intactos.

Eso cambia la línea de build-vs-buy para infraestructura de agentes. Si tu agente necesita ejecución de código, estado de archivos y continuidad multi-turno, ya no tienes que empezar cableando tu propio pool de sandbox, capa de persistencia y protocolo de harness. Puedes usar la API de Interactions como el plano de control, personalizar el agente con instrucciones y skills de markdown, y decidir después si una carga de trabajo pertenece a un entorno administrado o un harness auto-alojado.

El tradeoff es control. Los agentes administrados reducen la fricción de infraestructura, pero el límite de ejecución es el entorno alojado de Google. El auto-alojamiento a través de un SDK o runner de agente local mantiene más control sobre red, sistema de archivos, políticas, secretos y observabilidad. La guía práctica: usa Managed Agents para prototipos, tareas de herramientas acotadas y cargas de trabajo donde un entorno Linux aislado alojado es aceptable; usa harnesses auto-alojados cuando el agente necesita alcanzabilidad de red privada, reglas de sandbox personalizadas o integración profunda de herramientas locales.

Gemini 3.5 Flash importa porque los runtimes de agentes son sensibles a latencia. Un modelo que es lo suficientemente rápido para bucles repetidos de planificación de herramientas y lo suficientemente fuerte para tareas de codificación cambia cuánto trabajo puedes poner en una sola interacción administrada antes de que la experiencia del operador se sienta lenta. Observa los niveles de costo y latencia, comportamiento de llamadas de herramientas, semántica de persistencia de estado, y qué tan bien las llamadas de seguimiento preservan archivos de trabajo sin ocultar demasiado de la traza de ejecución.

[39:30] Chrome WebMCP - las herramientas de agente de navegador se vuelven explícitas WebMCP es un estándar web propuesto por Chrome para exponer herramientas estructuradas a agentes de navegador. En lugar de pedir a un agente que infiera el propósito de cada botón y campo de formulario, una página puede registrar herramientas a través de JavaScript o anotar formularios HTML declarativamente. La herramienta lleva entradas y salidas de JSON Schema, puede compartir estado de página, y ejecuta visiblemente en el contexto de navegador del usuario.

Esta es la dirección correcta para la confiabilidad de uso de computadora. La actuación de píxeles y DOM es flexible, pero es ambigua: el agente adivina qué control mapea a qué intención, y cada clic adicional es un punto de falla. WebMCP hace las acciones de alto valor explícitas. Un sitio de viajes puede exponer una herramienta de reserva multi-ciudad. Una app de soporte puede exponer una herramienta de diagnóstico. Una página de configuración puede exponer un comando seguro de "ejecutar verificaciones" que sería difícil de descubrir desde la UI sola.

El límite de seguridad es parte del diseño. WebMCP está controlado por una Permissions Policy de tools que por defecto aplica a contextos de mismo origen de nivel superior y deshabilita iframes de origen cruzado a menos que opten con allow="tools". Las acciones sensibles pueden solicitar interacción del usuario con un diálogo de confirmación. La herramienta aún se ejecuta en una página o webview visible, lo que significa que no hay ruta de backdoor headless por defecto. Esa es una limitación, pero también una propiedad de confianza: los usuarios pueden ver el sitio, la marca y la superficie de acción.

Para los constructores, el camino de prueba es claro. Habilita la flag local de Chrome o usa el origin trial de Chrome 149 cuando esté disponible, añade una herramienta imperativa o una anotación de formulario declarativa, define un JSON Schema estricto, prueba con la extensión Model Context Tool Inspector, y verifica que la herramienta devuelva errores estructurados de los que un agente pueda recuperarse. El item de vigilancia más grande es portabilidad: WebMCP está propuesto, no terminado, así que mantén los contratos de herramientas pequeños y evita apostar toda tu UX de agente a una API de draft.

[48:00] Google AI Studio - Workspace, exportación de Antigravity y generación de Android La actualización de I/O de Google AI Studio es importante porque conecta varias superficies de construcción de aplicaciones que normalmente funcionan por separado. Las aplicaciones generadas pueden integrarse con las APIs de Workspace, los proyectos pueden exportarse a Antigravity, y el modo de compilación móvil puede generar aplicaciones Android nativas con un emulador en el navegador, flujos de dispositivos ADB y publicación en Play Internal Test Track.

La relevancia para los constructores es la continuidad. Un prototipo puede comenzar en AI Studio, tocar datos reales de Workspace, moverse a Antigravity para una programación más profunda de agentes, y continuar en un track de pruebas de Android sin obligar al desarrollador a reconstruir el contexto en cada límite. Eso es un flujo de trabajo diferente al de un prototipo de chat que produce un archivo zip y deja el resto de la ruta del producto al trabajo manual.

La precaución es la gobernanza. La integración con Workspace significa datos reales y permisos reales, por lo que las aplicaciones generadas necesitan revisión explícita de alcances de OAuth, controles de usuarios de prueba, y una transferencia clara de credenciales de prototipo a credenciales de producción. La generación de Android también necesita la higiene móvil habitual: identidad del paquete, firma, distribución interna, pruebas en dispositivos y telemetría. El modelo mental útil no es "AI Studio reemplaza el pipeline de aplicaciones". Es "AI Studio ahora llega más lejos en el pipeline de aplicaciones antes de la transferencia".

[55:30] Chrome DevTools para agentes - la verificación del navegador se convierte en parte del trabajo de programación Chrome DevTools para agentes le da a los agentes de programación un carril de verificación de navegador: transferencia de navegador administrado, emulación responsive, emulación de geolocalización, depuración de sesión activa de Chrome, y automatización de Lighthouse. Esto es adyacente a WebMCP, pero resuelve un problema diferente. WebMCP se trata de que las páginas expongan herramientas explícitas. DevTools para agentes se trata de permitir que un agente de programación verifique la página que acaba de cambiar.

Esa distinción importa. Un agente de código puede pasar las pruebas y aún así enviar un layout roto, un error de consola, una solicitud de red fallida, un control inaccesible, o una página lenta. La transferencia del navegador permite al agente inspeccionar la superficie real de ejecución en lugar de detenerse en el código fuente. La emulación responsive y de geolocalización hacen que la verificación sea menos limitada al escritorio. Lighthouse le da una ruta de auditoría estructurada para problemas de rendimiento y accesibilidad.

Para los equipos, esto empuja el trabajo de UI hacia un ciclo más cerrado: editar código, ejecutar la aplicación, inspeccionar el estado real de la página, capturar evidencia del navegador, y luego parchear. El punto de atención es cuánto de ese ciclo se vuelve confiable y scriptable en diferentes frameworks y servidores de desarrollo local. Mientras más estable se vuelva, menos aceptable será que los agentes de código afirmen que el trabajo de frontend está terminado sin ver la página renderizada.

[63:00] GitHub Copilot Business y Enterprise - GPT-5.3-Codex se convierte en el modelo base GitHub está convirtiendo a GPT-5.3-Codex en el modelo base para Copilot Business y Enterprise. Los detalles importantes son las puertas de aprobación del modelo, la disponibilidad de soporte a largo plazo hasta el 4 de febrero de 2027, los multiplicadores de solicitudes premium, el cronograma de depreciación de GPT-4.1, y la forma en que los valores predeterminados del modelo base dan forma al comportamiento de respaldo para los usuarios empresariales.

Para los desarrolladores individuales, una actualización de modelo puede sentirse como una preferencia. Para una organización, es política. El modelo base afecta lo que miles de usuarios obtienen por defecto, qué cargas de trabajo consumen solicitudes premium, qué modelos necesitan aprobación, y cuánto tiempo permanece disponible el comportamiento anterior. El soporte a largo plazo importa porque los equipos necesitan tiempo para validar el comportamiento de generación de código, los patrones de revisión de seguridad, y la guía interna antes de que desaparezca un modelo antiguo.

La recomendación práctica es tratar el cambio como una migración de gobernanza, no solo como un anuncio de mejor modelo. Confirma qué modelos están aprobados, verifica los multiplicadores de solicitudes premium contra el uso real, identifica flujos de trabajo que todavía dependen del comportamiento de GPT-4.1, y documenta la ruta de respaldo antes de que se cierre la ventana de depreciación.

[70:00] Cierre - qué probar a continuación La lista de verificación de actualización es práctica. Para Codex, prueba la autenticación del SDK de Python, los giros de strings, TurnResult, el resume con restricciones de esquema, los keepalives remotos, la fidelidad de imágenes, y la detención del loop de objetivos. Para Claude Code, prueba claude agents --json, los IDs de agente de OTEL, los campos de GitHub en la línea de estado, los datos de vista previa de plugins, los payloads de hooks, y las solicitudes de permiso de variables de entorno de Bash. Para Gemini Managed Agents, prueba las interacciones de seguimiento con estado y la persistencia de archivos. Para WebMCP y Chrome DevTools, prueba una acción de navegador de alto valor más un ciclo de verificación de página renderizada. Para AI Studio y Copilot, revisa los alcances, las rutas de transferencia, las puertas de aprobación, y los controles de costos antes de incorporarlos al trabajo diario.