Episode 64: Claude Code 2.1.165, la familia de modelos de

Episodio 64 — 5 de junio de 2026

[00:00] Gancho del episodio

Claude Code 2.1.165 llega como el último latest de npm el 5 de junio de 2026, siguiendo a 2.1.163 y 2.1.164 — todas son versiones de mantenimiento tranquilas que limpian sesiones en segundo plano, hooks de plugins, sintaxis de skills y manejo de rutas en Windows. Microsoft lanzó una familia MAI de siete modelos en Build 2026 el 2 de junio, con MAI-Code-1-Flash como protagonista: un modelo de codificación de 5B parámetros entrenado con harness de producción de GitHub Copilot, alcanzando 51% en SWE-Bench Pro y un 60% más eficiente en tokens que modelos comparables. MAI-Image-2.5 alcanza 1403 en el leaderboard Arena Image Edit, por delante de Gemini 3 Pro. NVIDIA Cosmos 3 abre el desarrollo de IA física con un modelo base de mundo abierto disponible en tres tamaños en Hugging Face y GitHub. El radar del proyecto cubre memoria de agentes, grafos de código y herramientas MCP que sirven a la pila local de coding-agent.

[02:00] Claude Code 2.1.165 — bloque de mantenimiento de tres versiones para sesiones en segundo plano, hooks y Windows

Claude Code 2.1.165 es el latest de npm de junio, completando un bloque de mantenimiento de tres versiones desde la línea base EP063 de 2.1.162. El bloque no es una ola de funciones — es el tipo de versión que cierra brechas que los operadores descubren cuando un flujo de trabajo sale mal.

La versión 2.1.163 es la más interesante a nivel operativo de las tres. Las configuraciones administradas requiredMinimumVersion y requiredMaximumVersion permiten a los admins de org ejecutar puertas de versión — Claude Code se niega a iniciar si su versión está fuera del rango permitido y dirige al usuario a una versión aprobada. Para operadores de flotas que necesitan comportamiento determinista entre versiones, esto es una primitiva de cumplimiento real. /plugin list ahora muestra los plugins instalados con filtros --enabled/--disabled, lo cual importa cuando la proliferación de plugins hace difícil auditar lo que realmente está cargado.

Los hooks Stop y SubagentStop ganan la capacidad de retornar hookSpecificOutput.additionalContext — el hook puede darle retroalimentación a Claude y mantener el turno sin ser etiquetado como error de hook. Eso cambia cómo los autores de hooks pueden extender una sesión: un hook que necesita mostrar información sin bloquear el turno ahora tiene un contrato limpio. Skills agrega una sintaxis de escape \$ para $ literal antes de un dígito, lo cual importa para cuerpos de comandos que incluyen referencias a variables de shell. Los servidores MCP stdio ahora reciben el mismo CLAUDE_CODE_SESSION_ID que los hooks y Bash en --resume, lo cual cierra una brecha donde los servidores MCP no podían correlacionar una sesión a través de operaciones de resume.

Las correcciones de Windows merecen atención individual. Una regresión en 2.1.154 causó que $TMPDIR fuera sobrescrito a /tmp/claude-{uid} para todos los comandos Bash en lugar de solo los sandboxed, lo cual rompió flujos de trabajo de Bazel y Go protegidos por EDR que dependen del directorio temporal real. Los comandos Bash ahora fallan correctamente en Windows cuando el directorio session-env tiene el atributo de solo lectura o vive dentro de OneDrive. El mensajería entre sesiones (SendMessage) se rompió silenciosamente cuando CLAUDE_CODE_TMPDIR o $TMPDIR apuntaban a un directorio profundo — eso ahora está corregido.

La versión 2.1.165 es puramente correcciones de bugs y mejoras de confiabilidad. La lista práctica de actualización: audita las configuraciones de cumplimiento de versión de tu flota, ejecuta /plugin list para ver qué está realmente instalado, prueba un hook que retorne additionalContext para verificar el comportamiento de extensión de turno, y verifica que los flujos de trabajo de Bazel y protegidos por EDR funcionen correctamente después de la corrección de regresión de $TMPDIR.

[14:00] Familia Microsoft MAI en Build 2026 — MAI-Code-1-Flash y el modelo de codificación nativo de Copilot

Microsoft abrió Build 2026 el 2 de junio con el anuncio de una familia MAI de siete modelos. El modelo que más importa para la pila de agentes es MAI-Code-1-Flash: un modelo de codificación de 5 mil millones de parámetros entrenado directamente en los harness de herramientas de producción de GitHub Copilot, no en conjuntos de datos genéricos de benchmarks. El enfoque de entrenamiento es el diferenciador clave. Al entrenar en los mismos harness que los desarrolladores usan para sus tareas de codificación diarias, el modelo aprende cómo interactuar con las herramientas y sistemas circundantes en flujos de trabajo de codificación agéntica — no solo cómo responder a un prompt de benchmark.

Los números de benchmark son concretos. MAI-Code-1-Flash obtiene 51% en SWE-Bench Pro, una ventaja de +16 puntos sobre Claude Haiku 4.5 en el mismo harness de producción. En SWE-Bench Verified, SWE-Bench Multilingual y Terminal Bench 2, supera a Haiku 4.5 en los cuatro benchmarks de codificación principales. El control adaptativo de longitud de solución es el mecanismo de eficiencia: el modelo se mantiene conciso en solicitudes simples y asigna más presupuesto de razonamiento en problemas más difíciles. Microsoft ve un 60% menos de tokens de solución en tareas complejas, lo que se traduce en menor latencia, menor costo y flujos de trabajo interactivos más fluidos.

MAI-Image-2.5 obtuvo 1403 en el leaderboard Arena Image Edit el 2 de junio, por delante de Gemini 3 Pro Image Preview 2K con 1388. Esa es una posición real en el leaderboard para Microsoft en edición de imágenes multimodales — la primera vez en un rato que está demostrablemente por delante de Google en un benchmark comparable. Para pilas de agentes dentro de tiendas Microsoft, esto cierra una brecha donde las tareas de imagen tenían que rutear fuera de la superficie Copilot/Foundry.

MAI-Thinking-1 (35B parámetros activos / ~1T parámetros totales) está en preview privado en Microsoft Foundry, posicionado contra Claude Opus 4.6 en SWE-Bench Pro. La familia MAI completa cubre modelos de imagen, voz y razonamiento, pero MAI-Code-1-Flash es el que cambia los flujos de trabajo de coding-agent hoy.

La señal estratégica: Microsoft está reduciendo la dependencia de OpenAI y compitiendo en capacidades de modelos base con pipelines de entrenamiento ajustados a su propia pila de desarrollador. Para operadores de pilas de agentes que rutear entre laboratorios, esto añade un nuevo modelo nativo de Copilot que ya está dentro de las herramientas que usan.

[26:00] NVIDIA Cosmos 3 — modelo base de IA física abierto para la próxima generación de agentes

NVIDIA lanzó Cosmos 3 en COMPUTEX 2026 como un modelo base de mundo abierto para IA física. El modelo combina razonamiento visual, generación de mundo y predicción de acción en una sola arquitectura de mezcla de transformers — tres capacidades que antes eran sistemas separados. Tres tamaños disponibles: Cosmos 3 Nano (16B parámetros, optimizado para GPUs workstation-grade RTX PRO 6000), Cosmos 3 Super (64B parámetros, apuntando a GPUs Hopper y Blackwell de data center para generación de datos sintéticos a gran escala), y Cosmos 3 Edge (próximamente, para inferencia edge en tiempo real).

Cosmos 3 es abierto para investigación y uso comercial. NVIDIA ha liberado los pesos del modelo, scripts de entrenamiento, herramientas de despliegue y conjuntos de datos en Hugging Face y GitHub. La cobertura de benchmarks es amplia: Artificial Analysis, Physics-IQ, PAI-Bench, R-Bench para precisión de generación de mundo, RoboLab y RoboArena para política de acción, y VANTAGE-Bench y TAR para comprensión visual. Entre modelos abiertos, Cosmos 3 lidera en estos benchmarks.

El ángulo de pila de agentes no es trabajo de codificación inmediato — se trata de entender qué significan los modelos base de IA física para la próxima generación de hardware de agentes. Agentes que interactúan con robots, vehículos y entornos del mundo real necesitan exactamente las capacidades que Cosmos 3 combina: razonamiento visual, simulación de mundo y predicción de acción. Para operadores que observan el horizonte, este es el modelo base abierto en el que equipos de robótica y tiendas de desarrollo basado en simulación construirán.

[35:00] App de escritorio de GitHub Copilot — orquestación nativa de agentes para la pila de Copilot

La nueva aplicación de escritorio de GitHub es el anuncio de producto que transforma a Copilot de un asistente de codificación reactivo en una superficie proactiva de orquestación de múltiples agentes. El panel "My Work" supervisa y dirige múltiples agentes de IA simultáneamente a través de repositorios, issues, pull requests y automatizaciones en segundo plano. Cada sesión se ejecuta en su propio worktree de Git aislado — esa es la decisión arquitectónica clave para el trabajo paralelo de agentes: sin conflictos de ramas, sin gestión manual de ramas, sin interferencia de sesiones cuando dos agentes operan en la misma base de código al mismo tiempo.

Los Canvas son el diseño de interacción másnovedoso. Son superficies visuales interactivas y bidireccionales donde desarrolladores y agentes colaboran en tiempo real. El agente muestra su plan actual, salidas de terminal, despliegues o sesiones de navegador en el Canvas. El desarrollador puede inspeccionar, dirigir y verificar el trabajo sin cambiar de ventanas. Ese es un modelo diferente del patrón de terminal y chat que usan la mayoría de los agentes hoy en día.

Agent Merge automatiza el ciclo de vida del pull request desde recoger un issue hasta la revisión, verificaciones y fusión. El Copilot SDK está disponible de forma general en seis lenguajes, lo que significa que las herramientas personalizadas y las extensiones de agentes se convierten en una superficie de desarrollo de primera clase en lugar de un hack. El modo de voz en la CLI añade una nueva modalidad de entrada para desarrolladores que prefieren hablar a escribir.

El movimiento práctico: si eres suscriptor de Copilot Pro o Enterprise, únete a la vista previa técnica y prueba una sesión de agente paralelo en un repositorio de bajo riesgo. Usa el SDK para construir una herramienta personalizada que extienda cómo un agente interactúa con tu flujo de trabajo existente.

[44:00] OpenHands 1.6.0 — Kubernetes, Planning Mode y codificación autónoma de nivel empresarial

OpenHands es el agente de codificación autónoma más probado en producción en el ecosistema de código abierto. La versión 1.6.0 se lanzó en marzo de 2026 con dos adiciones principales: soporte para Kubernetes en cargas de trabajo de agentes contenedorizados a escala, y una versión beta de Planning Mode que añade descomposición explícita de tareas antes de la ejecución.

La arquitectura del agente vale la pena entenderla como punto de referencia. OpenHands se ejecuta en un entorno aislado con un shell embebido, navegador web, editor de código y planificador de tareas. Realiza tareas de ingeniería de software de extremo a extremo — escribir y modificar código, ejecutar comandos, navegar por la web, ejecutar pruebas, depurar — sin cambiar de entornos. La flexibilidad del LLM significa que puedes conectar GPT-4, Claude, Gemini, modelos locales u otros.

La lista de adopción empresarial es la señal más concreta: AMD, Apple, Google, Amazon, Netflix y NVIDIA lo están usando en producción. Eso te dice algo sobre dónde están los agentes de codificación autónoma en la curva de madurez — no son prototipos de investigación, sino herramientas de producción en algunos de los entornos de ingeniería más exigentes.

Para el stack de agentes, OpenHands es una referencia principal de cómo se ve la codificación autónoma en producción. La integración con Kubernetes significa que ahora puede ser parte de una infraestructura de agentes contenedorizada y orquestada. La versión beta de Planning Mode vale la pena seguirla porque la descomposición explícita antes de la ejecución es una de las brechas que separa a los agentes autónomos que funcionan en demos de los que funcionan en producción.

[53:00] Cola práctica

Para Claude Code, audita la configuración de cumplimiento de versión de tu flota, ejecuta /plugin list para ver qué está realmente instalado, y verifica que los flujos de trabajo de Bazel y protegidos por EDR se ejecuten correctamente después de la corrección de regresión de $TMPDIR. Para Microsoft MAI, prueba MAI-Code-1-Flash a través de GitHub Copilot en una tarea de codificación real y compara el uso de tokens; si estás dentro de un entorno Microsoft, prueba MAI-Image-2.5 a través de Copilot en una tarea de edición de imágenes. Para NVIDIA Cosmos 3, descarga el modelo de Hugging Face si trabajas en IA física o robótica, y sigue el nivel de tamaño Edge para hardware futuro de agentes de borde. Para la aplicación de escritorio de GitHub Copilot, únete a la vista previa técnica y prueba una sesión de agente paralelo en un repositorio de bajo riesgo. Para OpenHands, ejecútalo contra uno de tus repositorios, prueba Planning Mode en una tarea de múltiples pasos, y compara la finalización de tareas de extremo a extremo contra un agente de codificación de un solo turno.