Episode 60: Código de Claude 2.1.158, Control de Windows

Claude Code 2.1.158 extiende el modo automático a Bedrock, Vertex y Foundry para Opus 4.7 y Opus 4.8 cuando se habilita CLAUDE_CODE_ENABLE_AUTO_MODE=1. La actualización de la aplicación Codex de OpenAI del 29 de mayo añade uso de computadora en Windows, control remoto desde móvil o Mac mientras la máquina Windows permanece como host, comportamiento del navegador integrado más rápido y estable, y Codex Profiles para identidad, actividad, estadísticas de uso y actividad de tokens. Luego el episodio entra en las entradas del sistema de la Messages API de Anthropic y un radar de proyectos sobre memoria arquitectónica local, cognición persistente de agentes, agentes de codificación solo locales y reparación respaldada por grafos.

[00:00] Apertura: lanzamientos, superficies de control y memoria El útil carril de AgentStack Daily hoy es control. Claude Code está exponiendo el modo automático en proveedores de nube administrados, pero solo detrás de una variable de entorno explícita. Codex está extendiendo el uso de computadora a Windows mientras mantiene los archivos del proyecto, shell, servidor de aplicaciones y contexto local en el host Windows. OpenAI está mostrando perfil y actividad de tokens para que el uso de agentes se pueda inspeccionar. Anthropic está dando a los constructores de arneses una forma de actualizar instrucciones del sistema dentro de una secuencia de mensajes en ejecución. El radar de proyectos luego hace la misma pregunta a nivel de repositorio: ¿cómo recuerdan los agentes la arquitectura, las decisiones y la evidencia de reparación sin volcar todo en el siguiente prompt?

[03:00] Claude Code 2.1.158 y control de Codex Windows Claude Code 2.1.158 añade soporte de modo automático en Bedrock, Vertex y Foundry para Opus 4.7 y Opus 4.8 cuando se establece CLAUDE_CODE_ENABLE_AUTO_MODE=1.

Ese pequeño lanzamiento merece una explicación porque el modo automático es una superficie de política y enrutamiento, no solo un interruptor de conveniencia. Cuando un agente de codificación decide si una acción es lo suficientemente segura para ejecutarse automáticamente, el límite del proveedor importa. Los despliegues en Bedrock, Vertex y Foundry a menudo existen porque un equipo quiere acceso al modelo dentro de un entorno de nube administrada con su propia identidad, registro y reglas de cumplimiento. Hacer que el modo automático esté disponible allí significa que el clasificador de acciones automáticas puede probarse en el mismo carril administrado que el resto de la ejecución del agente empresarial.

La actualización de la aplicación Codex de OpenAI del 29 de mayo es el otro tema principal del episodio. El uso de computadora de Codex ahora soporta Windows para usuarios elegibles, así que Codex puede ver, hacer clic y escribir en aplicaciones Windows mientras prueba, depura y refina una compilación. La forma de control remoto importa: un usuario puede comenzar trabajo en una máquina Windows, luego usar ChatGPT en iOS o Android, o Codex en Mac, para revisar el progreso, responder a prompts y guiar el hilo mientras está lejos del escritorio. La máquina Windows permanece como host para archivos del proyecto, shell, servidor de aplicaciones y contexto local. Ese es el límite correcto para muchos flujos de trabajo locales: la supervisión puede moverse, pero la ejecución se mantiene cerca del repositorio y la aplicación en ejecución.

Los Codex Profiles añaden otra capa de inspeccionabilidad. Identidad, actividad a lo largo del tiempo, detalles del perfil, estadísticas de uso y actividad de tokens dan a los usuarios elegibles más de la superficie operacional que los agentes de larga duración necesitan. Cuando un trabajo diario falla, cuando una sesión remota usa tokens inesperados, o cuando un perfil está vinculado a la identidad equivocada, la evidencia de uso no es un lujo. Es cómo la pila se vuelve depurable.

[13:00] Las instrucciones en tiempo de ejecución se convierten en estado editable El anuncio de Opus 4.8 de Anthropic incluía un cambio en la API para desarrolladores que merece su propio segmento: la Messages API ahora acepta entradas del sistema dentro del array de mensajes. Para un arnés de agente de codificación, eso es una primitiva útil. El objetivo del usuario puede quedarse en el carril del usuario, mientras que los hechos en tiempo de ejecución pueden añadirse como entradas del sistema cuando el entorno cambia.

Piensa en lo que cambia durante una ejecución real del agente. Un sandbox puede volverse bloqueado. Un presupuesto de tokens puede reducirse. Un conjunto de pruebas puede pasar de fallar a pasar. Un worker en segundo plano puede terminar. Una herramienta puede ser revocada. Un repositorio puede cambiar de un worktree a otro. Sin una forma estructurada de actualizar el estado en tiempo de ejecución, los arneses tienden a meter estos detalles en texto ordinario o pedir al modelo que los infiera de los logs. Las entradas del sistema dentro del array de mensajes permiten al arnés decir, más precisamente, "el contrato operativo cambió".

El ángulo del caché de prompts también es importante. Las sesiones largas son costosas porque repetir todo el contrato quema tokens y hace el contexto pesado. Si un arnés puede actualizar hechos específicos del sistema sin romper el comportamiento del caché, puede mantener el agente actualizado sin reconstruir constantemente todo el prompt. Eso es especialmente útil para OpenClaw, Hermes, Codex, Claude Code y cualquier programador que necesite mantener un trabajo de larga duración alineado con los permisos actuales.

[21:00] OpenLore y Mnemo: memoria con estructura y frescura OpenLore ataca el problema de orientación. Los agentes de codificación desperdician mucho contexto redescubriendo la misma estructura del proyecto: puntos de entrada, rutas de llamadas, módulos, clusters, decisiones arquitectónicas y deriva. OpenLore convierte eso en un grafo local y una capa de orientación accesible a través de MCP. El agente puede pedir un resumen compacto de la arquitectura, luego expandir solo la parte del grafo relevante para la tarea actual. Eso es mejor que leer un árbol de directorios, varios archivos, un README y una transcripción cada vez que inicia una sesión.

Mnemo toma el problema de memoria en una dirección complementaria. Se enfoca en cognición de ingeniería persistente con almacenamiento local primero, recuperación híbrida, grafos de conocimiento, hooks de ciclo de vida y decaimiento de memoria. La parte del decaimiento es el detalle operacional interesante. La memoria del agente no debería tratar cada decisión antigua como igualmente autoritativa para siempre. Una convención reciente, una tarea activa y un modo de falla conocido deberían ser fáciles de recordar. Una solución alternativa obsoleta de hace tres semanas debería enfriarse a menos que sea reforzada.

Juntos, estos proyectos apuntan a una mejor capa de memoria para las pilas de agentes. OpenLore recuerda cómo está estructurado el código. Mnemo recuerda lo que el proyecto aprendió y qué tan fresca es esa información. Ambos son más útiles que volcar transcripciones antiguas en cada prompt, porque ambos le dan al arnés una forma de recuperar contexto más pequeño y relevante.

[31:00] OpenMonoAgent y Prometheus: agentes locales y reparación respaldada por grafos OpenMonoAgent es un experimento útil de agente local porque es explícito sobre la línea base sin medidor, sin nube. Se ejecuta como un agente de codificación nativo de terminal con inferencia local a través de llama.cpp, sandboxing con Docker, inteligencia de código LSP y Roslyn, soporte MCP y playbooks. No necesita superar a cada modelo de frontera para ganarse un lugar en la pila. Necesita hacer que la lectura de repos privados, ediciones mecánicas, refactorizaciones repetibles de bajo riesgo y experimentos de bucles de herramientas locales sean lo suficientemente baratos para ejecutar frecuentemente.

El tradeoff es claro. Los modelos locales pueden tener dificultades en razonamiento más difícil y síntesis amplia comparado con Claude Code, Codex o un modelo alojado más fuerte. Pero la ejecución local le da a un equipo un punto de comparación útil: qué puede manejarse sin enviar código o prompts hacia afuera, qué necesita un modelo más fuerte, y qué debería dividirse en orientación local más razonamiento en la nube.

Prometheus se encuentra en el carril de reparación respaldada por grafos. Su repositorio describe un agente impulsado por grafo de conocimiento para mapear, entender y reparar bases de código complejas. Eso importa porque la reparación autónoma es donde los agentes de codificación a menudo se vuelven demasiado confiados. Un grafo puede restringir el bucle de reparación: qué archivos están conectados, qué rutas de llamadas importan, qué pruebas deberían seleccionarse, y qué evidencia respalda el parche. El objetivo no es hacer que un grafo sea mágico. El objetivo es forzar que el paso de reparación lleve evidencia de la estructura al plan de parche y verificación.

[40:00] Qué probar después La cola práctica del EP060 es específica. Prueba el modo automático de Claude Code solo detrás del flag de variable de entorno explícito y solo en el carril de nube administrada donde realmente se ejecutará. Prueba el uso de computadora de Codex Windows en una aplicación inofensiva antes de depender de supervisión remota para trabajo importante. Trata los Codex Profiles como evidencia operacional para identidad, uso y actividad de tokens. Para constructores de arneses, estudia las entradas del sistema dentro de la Messages API como una forma más limpia de actualizar el estado en tiempo de ejecución durante trabajos largos.

Luego elige un experimento de memoria. Usa OpenLore cuando el dolor sea el redescubrimiento arquitectónico. Usa Mnemo cuando el dolor sean decisiones olvidadas y contexto obsoleto. Usa OpenMonoAgent cuando el dolor sea privacidad, costo o repetibilidad local. Usa Prometheus cuando la pregunta de investigación sea reparación restringida por grafos. La lección diaria es simple: las pilas de agentes se están volviendo más capaces, pero la ventaja duradera sigue siendo control, evidencia y contexto que se mantiene lo suficientemente pequeño para usar.