Episode 67: Resumen de versiones de Agent Stack: Entrega

Episodio 067 — 9 de junio de 2026

[00:00] Introducción del episodio

Dos versiones frescas de agent-stack CLI se lanzan esta semana: OpenAI Codex salta a rust-v0.138.0 con un mecanismo de transferencia CLI-a-escritorio que elimina la transferencia manual de contexto, y Claude Code CLI actualiza a 2.1.169 en npm — todo en menos de 24 horas una de la otra. El grupo de trabajo del Model Context Protocol publicó su Candidato a Lanzamiento de julio de 2026, pivoteando la especificación hacia una arquitectura sin estado con un marco de extensiones de primera clase. Apple WWDC 2026 presentó un Siri AI funcional impulsado por Google Gemini, una app de Atajos que arma automatizaciones a partir de descripciones en lenguaje natural, y un actualizador de contraseñas comprometidas con un solo toque. Y la línea insignia de Alibaba Qwen3.7 se revela con Qwen3.7-Max — un modelo de razonamiento de 1M de tokens que ejecutó 1,000 llamadas a herramientas y mejoró un kernel por 10x enteramente por sí mismo — junto con Qwen3.7-Plus, la variante de agente multimodal. Desglosemos todo esto.

[02:00] OpenAI Codex rust-v0.138.0

OpenAI lanzó Codex rust-v0.138.0 el 8 de junio de 2026 como una versión estable, disponible desde la página de lanzamientos de GitHub bajo la etiqueta rust-v0.138.0. Esta es la primera versión estable desde que rust-v0.137.0 apareció en EP065, y llega con tres funcionalidades orientadas al usuario que cambian directamente cómo los desarrolladores trabajan con Codex.

La adición principal es el comando /app y su mecanismo complementario de transferencia a escritorio. En macOS y Windows nativo, ejecutar /app en una sesión de Codex CLI transfiere el contexto del hilo actual a Codex Desktop — autenticado por el token de sesión existente, sin volver a pedir credenciales. Los espacios de trabajo de Windows ahora pueden abrirse directamente en Desktop en lugar de detenerse en un prompt manual, lo que significa que un desarrollador puede iniciar una tarea en una terminal, darse cuenta de que necesita un navegador GUI o contexto de múltiples ventanas, y transferir sin perder estado. El transporte utiliza un bus de pipes con nombre en la estación de trabajo local; el cliente de escritorio recoge el token de sesión del almacén de autenticación del CLI.

La segunda funcionalidad es la exposición de rutas locales de imágenes. Cuando Codex genera una imagen o adjunta una imagen local a la conversación, el modelo ahora recibe la ruta del archivo guardado como una referencia de primera clase en lugar de una URL efímera. Anteriormente, las ediciones de seguimiento requerían que el modelo rastreara una URL que podía expirar o ser inaccesible; ahora el modelo mantiene la ruta exacta file:// y puede referenciarla en llamadas a herramientas posteriores de manera confiable. Esto corrige el flujo de trabajo de edición de seguimiento de imágenes que se rompió en cada versión desde que se lanzó la generación de imágenes.

La tercera funcionalidad es la flexibilidad del esfuerzo de razonamiento. La TUI ahora tiene atajos alternativos para terminales que carecen de enlaces de tecla Alt — un problema real en diseños de teclado no estadounidenses — y los niveles de esfuerzo definidos por el modelo fluyen en el orden en que el modelo los anuncia en lugar de ser reordenados por el cliente. El resultado es una selección determinista del esfuerzo de razonamiento en todos los despliegues de Codex.

Dos correcciones de errores abordan dolor operativo real: condiciones de carrera del portapapeles en entornos de alta latencia (un problema cuando Codex se ejecuta sobre SSH remoto o conexiones con alta fluctuación de red) y fallos de autenticación intermitentes durante sesiones de larga duración (un caso límite de expiración de token de sesión que activaba prompts de reautenticación a mitad de tarea). Ninguno es dramático, pero ambos fueron reportados por usuarios en el foro de desarrolladores de OpenAI.

Superficies de operador que cambian: el comando /app es nuevo en el CLI; el manejo de rutas de imágenes es nuevo en la capa de interfaz del modelo; los atajos alternativos de esfuerzo de razonamiento son nuevos en la TUI. No hay nuevas banderas de configuración ni variables de entorno. El riesgo de migración es bajo — esta es una versión aditiva con valores predeterminados compatibles hacia atrás.

Lo que los agentes ahora pueden hacer que antes era imposible o frágil: transferir una sesión CLI a un cliente de escritorio a mitad de tarea sin perder contexto; referenciar de manera confiable un archivo de imagen generado en ediciones de seguimiento a través de turnos; seleccionar niveles de esfuerzo de razonamiento en diseños de teclado no estadounidenses sin workarounds.

[06:30] Claude Code CLI 2.1.169

El Claude Code CLI de Anthropic publicó la versión 2.1.169 en npm el 8 de junio de 2026 a las 18:11:20 UTC, convirtiéndose en la última entrada en la pista de etiqueta dist latest. La etiqueta dist stable permanece en 2.1.153, dejando un vacío de 16 versiones de parche entre las dos pistas. Para los operadores, esto significa: si estás en latest, ya estás en 2.1.169 si has actualizado desde el 8 de junio; si estás en stable, estás en 2.1.153 y el vacío es intencional — la pista estable está curada para regresiones.

El delta de 2.1.168 a 2.1.169 es una publicación de parche único en menos de 24 horas, sugiriendo un hotfix para una regresión estrecha. Los metadatos de npm no anuncian nuevas superficies de API públicas o banderas de configuración para este lanzamiento. La cadencia de iteración rápida — cinco lanzamientos entre EP064 y EP067 — refleja el enfoque en mejora de estabilidad y confiabilidad de llamadas a herramientas que ha caracterizado la serie 2.1.16x.

Superficies de operador: el paquete npm @anthropic-ai/claude-code en la etiqueta latest. No hay nuevas banderas de CLI ni archivos de configuración. El riesgo de migración es mínimo — esta es una actualización a nivel de parche en una pista de lanzamiento bien establecida.

Lo que los agentes ahora pueden hacer: el parche 2.1.169 probablemente aborda un caso límite específico de llamada a herramientas reportado desde que se lanzó 2.1.168. Los operadores en latest deben actualizar y monitorear cualquier anomalía de enlace de sesión; si no aparecen, el lanzamiento es un parche de estabilidad limpio.

[09:00] MCP Candidato a Lanzamiento de julio de 2026

El grupo de trabajo del Model Context Protocol publicó el Candidato a Lanzamiento del 28 de julio de 2026 el 8 de junio de 2026, marcando el cambio arquitectónico más significativo en la historia de MCP. El cambio central es de un modelo de sesión con estado a un transporte sin estado con aplicaciones opcionales con estado superpuestas. En el modelo anterior, los clientes MCP mantenían un almacén de sesiones del lado del servidor — una restricción de sesión fija que hacía imposible el escalamiento horizontal sin afinidad de sesión en el balanceador de carga. El RC elimina esto moviendo todo el contexto de sesión al payload de la solicitud misma, para que cualquier cliente MCP pueda enrutar a cualquier réplica de servidor sin requerir un almacén de sesiones.

Las solicitudes de servidor a cliente se reestructuran. Anteriormente, un servidor podía enviar datos al cliente solo a través del callback de muestreo — una ruta estrecha y especializada. El RC añade una primitiva general server_request a la capa JSON-RPC, permitiendo que los servidores envíen prompts, actualizaciones de recursos o resultados de herramientas sin un poll del cliente. Esto es arquitectónicamente similar a cómo funcionan los SSE (Server-Sent Events) en HTTP — un stream iniciado por el servidor con suscripción del lado del cliente.

El Marco de Extensiones ahora es de primera clase. Las nuevas capacidades se envían como extensiones opt-in con su propio namespace versionado, se estabilizan en forma de extensión, y solo se mueven a la especificación central si y cuando ganan adopción amplia. La extensión MCP Apps (SEP-1865) permite que los servidores envíen interfaces HTML interactivas renderizadas en iframes aislados con un puente postMessage controlado — un patrón de UI renderizado por servidor que podría reemplazar UIs de inyección de prompt personalizadas en herramientas de agentes. La extensión Tasks se gradúa de experimental a extensión nombrada.

Tres características previamente experimentales están en desuso bajo la nueva política de ciclo de vida de características (SEP-2577). La validación completa del esquema JSON 2020-12 para herramientas ahora es requerida en lugar de recomendada.

Superficies de operador: los implementadores de servidores MCP necesitan auditar su código para estado de sesión del lado del servidor y migrarlo al cliente o a un almacenamiento externo. Los hosts clientes MCP deben actualizarse para manejar la nueva primitiva server_request. El marco de extensiones significa que las nuevas capacidades se distribuirán como adiciones opt-in en lugar de cambios en la especificación — observen las versiones de extensión como indicadores principales de nueva funcionalidad MCP.

Lo que los agentes ahora pueden hacer que antes era imposible: escalar la infraestructura del servidor MCP horizontalmente sin sesiones persistentes; recibir empujes iniciados por el servidor sin polling; usar superficies de interfaz de usuario renderizadas por el servidor (MCP Apps) como componentes interactivos dentro de las sesiones de agentes.

[13:00] Apple WWDC 2026 — Siri AI, Gemini y Atajos en Lenguaje Natural

La keynote de Apple WWDC 2026 del 8 de junio entregó la actualización de IA más sustancial en la historia de la compañía. El centro de atención es Siri AI — un agente de lenguaje natural completo integrado en iOS 27, iPadOS 27 y macOS 27 — impulsado por una asociación con Google Gemini para inferencia en la nube con Apple Intelligence en el dispositivo ejecutándose en las familias de chips A19 Pro y M4. La asociación es arquitecturalmente una pila de inferencia de dos niveles: las tareas livianas y sensibles a la privacidad se ejecutan en el dispositivo; las solicitudes de razonamiento complejo se enrutan a la API de Google Gemini.

La nueva app Atajos acepta descripciones de flujo de trabajo en lenguaje natural. Un usuario escribe "notifica a mi pareja cuando salgo del trabajo y dale mi ETA" y el sistema descompone esto en una secuencia de acciones del sistema y de apps — extrayendo una dirección almacenada de Contactos, calculando el tiempo de viaje a través de Apple Maps, enviando un mensaje a través de Mensajes — luego ensambla y guarda el gráfico de automatización resultante. Este es el mismo conjunto de primitivas subyacentes que impulsa la capa de automatización de Atajos existente, ahora accesible a través de lenguaje natural en lugar de una interfaz de arrastrar y soltar.

Safari gana gestión de pestañas con IA y un monitor de cambio de página que alerta cuando una página rastreada se actualiza — útil para monitorear precios, noticias o cualquier contenido web sensible al tiempo. El actualizador de contraseña comprometida con un toque usa IA para acceder al flujo de inicio de sesión a través de la automatización de Safari, manejando procesos de cambio de credenciales de múltiples pasos sin entrada manual del usuario. Mensajes muestra fotos por descripción de texto, y Calendario acepta creación de eventos en lenguaje natural con contexto de personas y tiempo extraído del correo electrónico durante llamadas activas.

Superficies de operador: el planificador de lenguaje natural de Atajos es una nueva superficie para automatización de flujos de trabajo que usuarios no técnicos ahora pueden crear directamente. La asociación con Gemini significa que iOS tiene una pila de inferencia de dos niveles — en el dispositivo para privacidad, en la nube para razonamiento complejo — arquitecturalmente similar a cómo Claude Code enruta entre modelos locales y remotos. El actualizador de contraseña con un toque probablemente esté entre las primeras acciones de IA accesibles para terceros a medida que Apple abre la API de Atajos.

Lo que los agentes ahora pueden hacer que antes era imposible: construir automatizaciones describiéndolas en lenguaje común en lugar de ensamblarlas manualmente; actualizar contraseñas comprometidas con un solo toque usando automatización de navegador impulsada por IA; rastrear cambios en páginas web sin polling o actualización manual.

[17:00] Qwen3.7-Max — El Flagship Agéntico de Alibaba

Alibaba lanzó Qwen3.7-Max el 21 de mayo de 2026 como el flagship de razonamiento de solo texto propietario de la generación Qwen 3.7, disponible solo vía API a través de Alibaba Cloud Model Studio. El modelo fue diseñado específicamente para cargas de trabajo de agentes de larga duración con capacidades de razonamiento y codificación mejoradas. En una prueba interna, Qwen3.7-Max realizó de forma autónoma más de 1,000 llamadas de herramientas y modificaciones iterativas de código para optimizar un kernel de Extend Attention de SGLang en un PPU T-Head ZW-M890 — una arquitectura de hardware que no estaba en los datos de entrenamiento del modelo. El proceso de optimización mejoró la velocidad de inferencia en aproximadamente 10x sobre la línea base a través de una ejecución de múltiples horas, con el modelo escribiendo, ejecutando, midiendo y revisando su propia implementación de kernel en más de 1,000 pasos.

Qwen3.7-Max presenta una ventana de contexto de 1M de tokens y expone un endpoint de API compatible con Anthropic, lo que significa que funciona con la misma interfaz de llamadas de herramientas que usa Claude Code. La integración requiere un cambio de configuración de tres líneas apuntando al endpoint de API compatible con Anthropic de Alibaba Cloud — no se requiere SDK propietario. El modelo no es de código abierto; el nivel Max nunca ha sido de código abierto en ninguna generación de Qwen.

Superficies de operador: el endpoint de API compatible con Anthropic en Alibaba Cloud Model Studio. Sin opción de despliegue local. La demostración autónoma de 1,000 pasos es un benchmark para evaluar capacidad agéntica de largo horizonte — útil para comparar modelos antes de comprometerse con una carga de trabajo de agente en producción.

Lo que los agentes ahora pueden hacer que antes era imposible: ejecutar tareas agénticas sostenidas de múltiples horas con más de 1,000 pasos de llamadas de herramientas en un solo modelo; usar un modelo de razonamiento de alto contexto junto con Claude Opus 4.7 sin cambiar las herramientas del agente.

[20:00] Qwen3.7-Plus — Modelo Agéntico Multimodal

Qwen3.7-Plus es la variante multimodal equilibrada de la generación Qwen 3.7, disponible a través de API mediante Alibaba Cloud Model Studio y listada en OpenRouter. Acepta entrada de texto, imagen y video con salida de texto, usando una arquitectura híbrida que combina atención lineal eficiente con enrutamiento sparse mixture-of-experts para fuerte escalabilidad con recuentos de parámetros activos más bajos. La ventana de contexto de 1M de tokens se comparte entre todas las modalidades de entrada. Las pruebas tempranas de terceros cubrieron flujos de trabajo basados en navegador, tareas de codificación OpenCode, generación de juegos en C++, diseño frontend, simulación de vuelo y generación de sitios web interactivos.

El modelo maneja entradas multimodales de forma nativa sin una tubería separada de codificador de visión, reduciendo la sobrecarga de llamadas de herramientas para tareas de comprensión de imágenes. Esto es arquitecturalmente significativo: un solo modelo maneja razonamiento de visión y lenguaje, lo que significa que los agentes pueden procesar una captura de pantalla, un archivo de código y una instrucción en lenguaje natural en la misma ventana de contexto sin enrutar a través de modelos separados de visión y lenguaje.

Superficies de operador: API a través de Alibaba Cloud Model Studio y OpenRouter. Sin lanzamiento de pesos abiertos. La arquitectura híbrida MoE significa que puede ejecutarse eficientemente en presupuestos de GPU de commodity mientras mantiene razonamiento de nivel frontier.

Lo que los agentes ahora pueden hacer que antes era imposible: manejar tareas agénticas multimodales — comprensión de pantalla, análisis de documentos, automatización de GUI — con un solo modelo unificado en lugar de una tubería de modelos separados de visión y lenguaje; procesar transcripciones de video largas y bases de código grandes en una sola ventana de contexto.

[23:00] Cola práctica

Actualiza Codex a rust-v0.138.0 y prueba /app para transferir una sesión CLI al cliente de escritorio — especialmente útil en configuraciones de múltiples monitores. Actualiza Claude Code CLI a través de npm update -g @anthropic-ai/claude-code si estás en la etiqueta latest; fija a stable si necesitas previsibilidad. Audita tu implementación del servidor MCP para el estado de sesión del lado del servidor antes de que la RC de julio de 2026 se vuelva definitiva. Explora el nuevo planificador de lenguaje natural de Shortcuts en iOS 27 cuando salga la beta. Agrega Qwen3.7-Max a Claude Code con una configuración de API compatible con Anthropic de tres líneas para tareas de agente de largo horizonte. Evalúa Qwen3.7-Plus como un reemplazo multimodal para Claude Opus 4.7 en cargas de trabajo de agente de visión-lenguaje.