Episode 60: Claude Code 2.1.158, Codex Windows Control

Claude Code 2.1.158 erweitert den Auto-Modus auf Bedrock, Vertex und Foundry für Opus 4.7 und Opus 4.8, wenn CLAUDE_CODE_ENABLE_AUTO_MODE=1 aktiviert ist. Das May-29-Update von OpenAI's Codex-App fügt Computer-Nutzung unter Windows hinzu, Fernsteuerung vom Mobiltelefon oder Mac aus, während die Windows-Maschine als Host fungiert, schnelleres und stabileres In-App-Browser-Verhalten sowie Codex Profiles für Identität, Aktivität, Nutzungsstatistiken und Token-Aktivität. Dann geht die Episode über zu Anthropics Messages-API-Systemeinträgen und einem Projekt-Radar rund um lokale architektonische Erinnerung, persistente Agent-Kognition, lokale Coding-Agents und Graph-gestützte Reparatur.

[00:00] Eröffnung: Releases, Kontrollflächen und Speicher Die heute interessante AgentStack Daily Spur ist Kontrolle. Claude Code legt den Auto-Modus über verwaltete Cloud-Provider hinweg offen, aber nur hinter einer expliziten Umgebungsvariable. Codex erweitert die Computer-Nutzung auf Windows, wobei Projektdateien, Shell, App-Server und lokaler Kontext auf dem Windows-Host bleiben. OpenAI macht Profil- und Token-Aktivität sichtbar, damit Agent-Nutzung inspizierbar wird. Anthropic gibt Harness-Bauern eine Möglichkeit, Systemanweisungen innerhalb einer laufenden Nachrichtensequenz zu aktualisieren. Das Projekt-Radar stellt dann auf Repository-Ebene dieselbe Frage: Wie merken sich Agents Architektur, Entscheidungen und Reparaturbeweise, ohne alles in den nächsten Prompt zu packen?

[03:00] Claude Code 2.1.158 und Codex Windows-Kontrolle Claude Code 2.1.158 fügt Auto-Modus-Unterstützung auf Bedrock, Vertex und Foundry für Opus 4.7 und Opus 4.8 hinzu, wenn CLAUDE_CODE_ENABLE_AUTO_MODE=1 gesetzt ist.

Diese kleine Version ist es wert, erklärt zu werden, denn der Auto-Modus ist eine Richtlinien- und Routing-Oberfläche, nicht nur ein Komfortschalter. Wenn ein Coding-Agent entscheidet, ob eine Aktion sicher genug ist, um automatisch ausgeführt zu werden, ist die Provider-Grenze relevant. Bedrock-, Vertex- und Foundry-Deployments existieren oft, weil ein Team Modellzugriff innerhalb einer verwalteten Cloud-Umgebung mit eigener Identität, Protokollierung und Compliance-Regeln möchte. Den Auto-Modus dort verfügbar zu machen bedeutet, dass der automatische-Aktion-Klassifikator in derselben verwalteten Spur wie der Rest des Enterprise-Agent-Runs getestet werden kann.

Das Codex App-Update von OpenAI vom 29. Mai ist das andere Vordergrund-Thema der Episode. Codex Computer-Nutzung unterstützt jetzt Windows für berechtigte Nutzer, sodass Codex Windows-Anwendungen sehen, klicken und tippen kann, während es Tests, Debugging und Verfeinerung eines Builds durchführt. Die Fernsteuerungsform ist wichtig: Ein Nutzer kann auf einer Windows-Maschine beginnen, dann ChatGPT auf iOS oder Android oder Codex auf dem Mac nutzen, um Fortschritt zu prüfen, auf Prompts zu reagieren und den Thread ferngesteuert zu leiten. Die Windows-Maschine bleibt der Host für Projektdateien, Shell, App-Server und lokalen Kontext. Das ist die richtige Grenze für viele lokale Workflows: Die Aufsicht kann sich bewegen, aber die Ausführung bleibt nah am Repo und der laufenden App.

Codex Profiles fügen eine weitere Inspizierbarkeitsschicht hinzu. Identität, Aktivität über Zeit, Profildetails, Nutzungsstatistiken und Token-Aktivität geben berechtigten Nutzern mehr von der operativen Oberfläche, die langlaufende Agents brauchen. Wenn ein täglicher Job fehlschlägt, wenn eine Remote-Session unerwartete Tokens verwendet oder wenn ein Profil an die falsche Identität gebunden ist, sind Nutzungsbeweise kein Luxus. Sie sind der Weg, wie der Stack debuggable wird.

[13:00] Runtime-Anweisungen werden editierbarer Zustand Anthropics Opus 4.8 Ankündigung enthielt eine Developer-API-Änderung, die ihren eigenen Abschnitt verdient: Die Messages API akzeptiert jetzt Systemeinträge innerhalb des messages-Arrays. Für einen Coding-Agent-Harness ist das ein nützliches Primitiv. Das Nutzerziel kann in der User-Spur bleiben, während Runtime-Fakten als Systemeinträge hinzugefügt werden können, wenn sich die Umgebung ändert.

Denken Sie darüber nach, was sich während eines echten Agent-Runs ändert. Eine Sandbox kann gesperrt werden. Ein Token-Budget kann schrumpfen. Eine Testsuite kann von fehlgeschlagen zu bestanden wechseln. Ein Hintergrund-Worker kann fertig werden. Ein Tool kann widerrufen werden. Ein Repository kann von einem Worktree zum anderen wechseln. Ohne eine strukturierte Möglichkeit, Runtime-Zustand zu aktualisieren, neigen Harnesses dazu, diese Details in gewöhnlichen Text zu stopfen oder das Modell zu bitten, sie aus Logs zu inferieren. Systemeinträge innerhalb des Message-Arrays lassen den Harness präziser sagen: „Der Betriebsvertrag hat sich geändert."

Der Prompt-Cache-Winkel ist ebenfalls wichtig. Lange Sessions sind teuer, weil das Wiederholen des gesamten Vertrags Tokens verbrennt und den Kontext schwer macht. Wenn ein Harness spezifische System-Fakten aktualisieren kann, ohne das Cache-Verhalten zu brechen, kann er den Agent aktuell halten, ohne ständig den gesamten Prompt neu aufzubauen. Das ist besonders nützlich für OpenClaw, Hermes, Codex, Claude Code und jeden Scheduler, der einen langlaufenden Job mit aktuellen Berechtigungen ausgerichtet halten muss.

[21:00] OpenLore und Mnemo: Speicher mit Struktur und Aktualität OpenLore attackiert das Orientierungsproblem. Coding-Agents verschwenden eine Menge Kontext damit, dieselbe Projektstruktur wiederzuentdecken: Einstiegspunkte, Call-Pfade, Module, Cluster, architektonische Entscheidungen und Drift. OpenLore macht daraus einen lokalen Graphen und eine MCP-zugängliche Orientierungsschicht. Der Agent kann nach einem kompakten Architektur-Digest fragen und dann nur den Teil des Graphen expandieren, der für die aktuelle Aufgabe relevant ist. Das ist besser als ein Verzeichnisbaum, mehrere Dateien, eine README und ein Transkript jedes Mal zu lesen, wenn eine Session startet.

Mnemo nimmt das Speicherproblem in eine komplementäre Richtung. Es konzentriert sich auf persistente Engineering-Kognition mit lokal-first Speicherung, Hybrid-Retrieval, Wissensgraphen, Lifecycle-Hooks und Memory-Verfall. Der Verfall-Teil ist das interessante operative Detail. Agent-Speicher sollte nicht jede alte Entscheidung für immer als gleichermaßen autoritativ behandeln. Eine frische Konvention, eine aktive Aufgabe und ein bekannter Fehlermodus sollten leicht abrufbar sein. Ein veralteter Workaround von vor drei Wochen sollte abkühlen, es sei denn, er wird verstärkt.

Zusammen zeigen diese Projekte auf eine bessere Speicherschicht für Agent-Stacks. OpenLore erinnert sich, wie der Code geformt ist. Mnemo erinnert sich, was das Projekt gelernt hat und wie frisch dieses Wissen ist. Beide sind nützlicher als alte Transkripte in jeden Prompt zu packen, weil beide dem Harness einen Weg geben, kleineren, relevanteren Kontext abzurufen.

[31:00] OpenMonoAgent und Prometheus: lokale Agents und Graph-gestützte Reparatur OpenMonoAgent ist ein nützliches lokales Agent-Experiment, weil es explizit über die Kein-Zähler-Keine-Cloud-Baseline ist. Es läuft als terminal-nativer Coding-Agent mit lokaler Inferenz durch llama.cpp, Docker-Sandboxing, LSP- und Roslyn-Code-Intelligenz, MCP-Unterstützung und Playbooks. Es muss nicht jedes Frontierz-Modell schlagen, um einen Platz im Stack zu verdienen. Es muss privates Repo-Lesen, mechanische Edits, wiederholbare risikoarme Refactorings und lokale Tool-Loop-Experimente billig genug machen, um sie oft auszuführen.

Der Tradeoff ist klar. Lokale Modelle können bei schwierigerem Reasoning und breiter Synthese im Vergleich mit Claude Code, Codex oder einem stärkeren gehosteten Modell kämpfen. Aber lokale Ausführung gibt einem Team einen nützlichen Vergleichspunkt: was ohne Code oder Prompts rauszuschicken gehandhabt werden kann, was ein stärkeres Modell braucht und was in lokale Orientierung plus Cloud-Reasoning aufgeteilt werden sollte.

Prometheus sitzt in der Graph-gestützten Reparatur-Spur. Sein Repository beschreibt einen Wissensgraph-gesteuerten Agent zum Mappen, Verstehen und Reparieren komplexer Codebasen. Das ist wichtig, weil autonome Reparatur der Bereich ist, wo Coding-Agents oft zu selbstbewusst werden. Ein Graph kann die Reparatur-Schleife einschränken: welche Dateien verbunden sind, welche Call-Pfade relevant sind, welche Tests ausgewählt werden sollten und welche Beweise den Patch unterstützen. Das Ziel ist nicht, einen Graphen magisch zu machen. Das Ziel ist, den Reparatur-Schritt zu zwingen, Beweise von der Struktur in den Patch und Verifizierungsplan zu tragen.

[40:00] Was als nächstes auszuprobieren ist Die praktische Queue von EP060 ist spezifisch. Testen Sie Claude Code Auto-Modus nur hinter der expliziten Umgebungsflag und nur in der verwalteten Cloud-Spur, wo er tatsächlich laufen wird. Testen Sie Codex Windows Computer-Nutzung auf einer harmlosen App, bevor Sie sich für wichtige Arbeit auf Remote-Aufsicht verlassen. Behandeln Sie Codex Profiles als operative Beweise für Identität, Nutzung und Token-Aktivität. Für Harness-Builder: Studieren Sie Systemeinträge innerhalb der Messages API als saubereren Weg, um Runtime-Zustand während langer Jobs zu aktualisieren.

Dann wählen Sie ein Speicher-Experiment. Nutzen Sie OpenLore, wenn der Schmerz architektonische Wiederentdeckung ist. Nutzen Sie Mnemo, wenn der Schmerz vergessene Entscheidungen und veralteter Kontext ist. Nutzen Sie OpenMonoAgent, wenn der Schmerz Datenschutz, Kosten oder lokale Wiederholbarkeit ist. Nutzen Sie Prometheus, wenn die Forschungsfrage Graph-eingeschränkte Reparatur ist. Die tägliche Lektion ist einfach: Agent-Stacks werden capable, aber der dauerhafte Vorteil ist immer noch Kontrolle, Beweise und Kontext, der klein genug bleibt, um ihn zu nutzen.