Episode 55: Codex 0.132.0, Claude Code 2.1.145, Gemini

Codex 0.132 und Claude Code 2.1 führen heute das AgentStack Daily an, weil sie konkrete Operator-Oberflächen verändern: SDK-Authentifizierung, fortgesetzte Automatisierungsschemas, Live-Agent-JSON, Trace-IDs, Plugin-Vorschauen und Berechtigungshärtung.

[00:00] Eröffnung – beginnen mit den veränderten Operator-Oberflächen NOVA und ALLOY eröffnen mit den praktischen Änderungen. Codex verfügt jetzt über eine erstklassige Python-SDK-Authentifizierung und einfachere Turn-APIs, während Claude Code den Live-Sitzungsstatus als JSON bereitstellt und Agent-Abstammung zu Traces hinzufügt. Dies ist kein bloßes Versionsnummern-Update. Es verändert, wie Entwickler Coding-Agents skripten, Automatisierungen fortsetzen, Hintergrundarbeit beobachten und unsicheres Shell-Verhalten erkennen, bevor es zu einem Vorfall wird.

[02:30] Release-Durchsage – Codex 0.132 Die größte API-Änderung dieses Codex-Releases ist die Python-SDK-Authentifizierungsoberfläche. Ein Python-Client kann jetzt API-Key-Anmeldung, ChatGPT-Browser-Anmeldung, Device-Code-Flows, Kontoinspektion und Abmeldung abwickeln, ohne den Authentifizierungsstatus an einen CLI-Wrapper auszulagern. Das ist wichtig für Notebooks, CI-Jobs, interne Tools und gehostete Developer-Portale, die Codex-Turns als echten programmatischen Workflow starten müssen, anstatt Terminal-Verhalten zu screen-scrapen.

Die Turn-API wird auch für kleine Automatisierungen einfacher. Text-only-Turns können einen einfachen String übergeben, und Handle-basierte Runs geben jetzt ein reichhaltigeres TurnResult mit gesammelten Elementen, Timing und Nutzung zurück. Das gibt Agent-Orchestrierungscode ein besseres Rückgabeobjekt: Was ist passiert, wie lange hat es gedauert, was hat es gekostet, und welche Artefakte wurden zurückgegeben. Das praktische Rezept ist straightforward: Verwenden Sie das Python-SDK für kontrollierte Tool-Einstiegspunkte, behalten Sie die CLI für lokale Repo-Arbeit, und erfassen Sie TurnResult, wenn Sie Telemetrie oder eine nachgelagerte Entscheidung benötigen.

Die codex exec resume --output-schema-Änderung ist diejenige, die für durable Workflows hervorgehoben werden sollte. Das Fortsetzen einer Sitzung behält den Kontext, der den Agent nützlich gemacht hat, aber die Ausgabe kann immer noch auf ein Schema beschränkt werden. Das ist die fehlende Brücke für Automatisierungen, die sowohl Speicher als auch maschinenlesbare Ausgabe benötigen: Issue-Triage, Migrationsstatus, Testergebnis-Zusammenfassungen oder ein nächtlicher Code-Gesundheitsbericht können denselben Thread fortsetzen und dennoch validiertes JSON zurückgeben.

Codex verschärft auch das Verhalten von Remote und App-Server. Die Remote-Executor-Registrierung kann jetzt Standard-Codex-Authentifizierung anstelle eines separaten Registry-Anmeldepfads verwenden. Remote-Sitzungen halten Websocket-Verbindungen aktiv und zeigen wieder repo-relative Diff-Pfade an, was langlaufende Remote-Arbeit weniger wahrscheinlich als tot aussehen oder unlesbare Patches produzieren lässt. App-Server-Turns bewahren die angeforderte Bildtreue, einschließlich Originalauflösung lokaler Bilder, über Benutzereingaben und bildproduzierende Tools hinweg auf. Das ist nützlich, wenn ein Agent Screenshots, UI-Regressionen, Diagramme oder generierte visuelle Artefakte inspiziert, wo niedrig aufgelöste Kontexte die Antwort verändern.

Die Risikohinweise sind operationell. Goal-Fortsetzungen stoppen jetzt, wenn sie Nutzungslimits oder wiederholte Blocker erreichen, sodass Agents weniger Tokens in einer festgefahrenen Schleife verbrauchen. Multi-Session-TUI-Replay behält laufende MCP-Aufrufe als aktiv markiert, und Elicitation-Antworten gehen an den Thread zurück, der sie angefordert hat, was threadübergreifende Verwirrung reduziert. Windows-Installationen erhalten codex doctor npm-install-Erkennung und MSVC-Binärdateien, die keine separaten VC++-Runtime-DLLs erfordern. Upgrade-Tests sollten Python-Login/Logout, einen Text-only-Turn, TurnResult-Felder, ein Schema-beschränktes Resume, Remote-Websocket-Stabilität, Bilddetail-Erhaltung und Windows-Doctor-Ausgabe abdecken, falls diese Plattform relevant ist.

[17:00] Release-Durchsage – Claude Code 2.1 Dieses Claude-Code-Update ist kleiner als der vorherige Patch,，但它落地的地方正是运营商需要的：实时清单、可追溯性、插件检查和 Shell 安全。claude agents --json 将 Agent 视图转换为可脚本化的界面。状态栏、tmux-resurrect 流、会话选择器、仪表板和看门狗现在可以查询实时 Claude 会话，而无需解析终端 UI。终端标签标题还显示待处理输入计数，因此需要人工注意的后台 Agent 在 TUI 之外也可见。

跟踪更新对运行后台子代理的团队很重要。claude_code.tool OpenTelemetry 跨度现在包含 agent_id 和 parent_agent_id，跟踪父级已修复，因此后台子代理跨度嵌套在调度它们的 Agent 工具跨度下。这为可观察性系统提供了真实的谱系树：主会话、调度代理、嵌套工具调用、结果。"Claude 使用了一个工具"与"这个特定的后台工作器在这个父轮之后做了慢的事情"之间是有区别的。

状态行 JSON 现在在检测到时包含 GitHub 仓库和 PR 信息。这使得本地提示、终端状态行和外部监控在 PR 工作中更有用：代理可以公开它正在哪个仓库和拉取请求中操作，而无需每次都进行单独的 gh 探测。/plugin 发现和浏览屏幕现在在安装前显示插件的命令、代理、技能、钩子和 MCP/LSP 服务器。这是一个安全和人体工程学的改进：构建者可以在将插件引入运行时之前检查它贡献了什么。

权限修复值得特别关注。Claude Code 修复了一个绕过，其中对 Bash 命令中未列入白名单的环境变量的裸变量赋值被自动批准。Shell 批准系统通常关注命令名称，但环境变量可以重定向工具、泄露数据、更改身份验证行为或改变执行路径。升级后，用一个无害的未列入白名单的变量赋值测试白名单策略，并确认它会提示而不是无声批准。

其他修复简化了日常使用：MCP 提示斜杠命令现在显示缺少参数的用法，而不是原始服务器验证错误；调整大小/重新聚焦不会冻结旋转器和已用时间；Windows PowerShell 恢复提示使用正确的命令分隔符；语音按键通话在代理视图回复窗格中有效；任务列表以稳定顺序呈现；非 ASCII Agent Teams 名称不再污染 API 头；/review 删除已弃用的 Classic Projects GraphQL 查询；插件验证捕获 skills: 下的文件路径；Read 在整个文件令牌溢出时返回截断的部分视图而不是硬失败；以及分叉技能停止无限自我重新调用循环。

[29:00] Google Gemini – Gemini 3.5 Flash GA und Managed Agents Das Gemini-API-Update von Google am 19. Mai veröffentlicht gemini-3.5-flash als GA Gemini 3.5 Flash-Modell und führt Managed Agents in der Gemini-API ein. Der nützliche Teil für Entwickler ist nicht nur der Modellname. Managed Agents verwandelt gehostete Agent-Ausführung in eine API-Oberfläche: Ein Aufruf stellt einen Agent bereit, der vom Antigravity-Harness angetrieben wird, gibt ihm eine isolierte Linux-Umgebung, lässt ihn Tools verwenden und Code ausführen, und ermöglicht Follow-up-Interaktionen, um mit Dateien und intaktem Zustand fortzufahren.

Das verschiebt die Build-vs-Buy-Linie für Agent-Infrastruktur. Wenn Ihr Agent Codeausführung, Dateizustand und Multi-Turn-Kontinuität benötigt, müssen Sie nicht mehr damit beginnen, Ihren eigenen Sandbox-Pool, Ihre Persistenzschicht und Ihr Harness-Protokoll zu verdrahten. Sie können die Interactions-API als Steuerungsebene verwenden, den Agent mit Anweisungen und Markdown-Skills anpassen und später entscheiden, ob eine Workload in eine verwaltete Umgebung oder einen selbst gehosteten Harness gehört.

Der Kompromiss ist Kontrolle. Managed Agents reduzieren Infrastruktur-Reibung, aber die Ausführungsgrenze ist Googles gehostete Umgebung. Selbsthosting durch ein SDK oder einen lokalen Agent-Runner behält mehr Kontrolle über Netzwerk, Dateisystem, Richtlinien, Geheimnisse und Observability. Die praktische Anleitung: Verwenden Sie Managed Agents für Prototypen, begrenzte Tool-Aufgaben und Workloads, bei denen eine gehostete isolierte Linux-Umgebung akzeptabel ist; verwenden Sie selbst gehostete Harnesses, wenn der Agent private Netzwerkreichweite, benutzerdefinierte Sandbox-Regeln oder tiefe lokale Tool-Integration benötigt.

Gemini 3.5 Flash ist wichtig, weil Agent-Runtimes latenzempfindlich sind. Ein Modell, das schnell genug für wiederholte Tool-Planungsschleifen und stark genug für Coding-Aufgaben ist, verändert, wie viel Arbeit Sie in eine einzelne verwaltete Interaktion legen können, bevor das Operator-Erlebnis sich langsam anfühlt. Beobachten Sie die Kosten- und Latenzstufen, das Tool-Aufrufverhalten, die Semantik der Zustandspersistenz und wie gut Follow-up-Aufrufe Arbeitsdateien bewahren, ohne zu viel der Ausführungsspur zu verbergen.

[39:30] Chrome WebMCP – Browser-Agent-Tools werden explizit WebMCP ist ein vorgeschlagener Web-Standard von Chrome zur Bereitstellung strukturierter Tools für Browser-Agents. Anstatt einen Agent zu bitten, den Zweck jedes Buttons und Formularfelds zu inferieren, kann eine Seite Tools durch JavaScript registrieren oder HTML-Formulare deklarativ annotieren. Das Tool führt JSON-Schema-Eingaben und -Ausgaben mit sich, kann Seitenzustand teilen und führt sichtbar im Browser-Kontext des Benutzers aus.

Dies ist die richtige Richtung für Computer-Use-Zuverlässigkeit. Pixel- und DOM-Ausführung ist flexibel, aber mehrdeutig: Der Agent rät, welches Steuerelement welchem Intent entspricht, und jeder zusätzliche Klick ist ein Fehlerpunkt. WebMCP macht hochwertige Aktionen explizit. Eine Reisesite kann ein Multi-City-Buchungstool bereitstellen. Eine Support-App kann ein Diagnosetool bereitstellen. Eine Einstellungsseite kann einen sicheren „Run Checks"-Befehl bereitstellen, der aus der UI allein schwer zu entdecken wäre.

Die Sicherheitsgrenze ist Teil des Designs. WebMCP wird durch eine tools Permissions Policy gesteuert, die standardmäßig Same-Origin-Top-Level-Kontexte zulässt und Cross-Origin-iFrames deaktiviert, es sei denn, sie melden sich mit allow="tools" an. Sensible Aktionen können Benutzerinteraktion mit einem Bestätigungsdialog anfordern. Das Tool läuft immer noch in einer sichtbaren Seite oder Webview, was bedeutet, dass es standardmäßig keinen Headless-Backdoor-Pfad gibt. Das ist eine Einschränkung, aber auch eine Vertrauenseigenschaft: Benutzer können die Site, die Marke und die Aktionsoberfläche sehen.

Für Entwickler ist der Testpfad klar. Aktivieren Sie das Chrome-Local-Flag oder verwenden Sie den Chrome-149-Origin-Trial, wenn verfügbar, fügen Sie ein imperatives Tool oder eine deklarative Formular-Annotation hinzu, definieren Sie ein enges JSON-Schema, testen Sie mit der Model Context Tool Inspector-Extension und verifizieren Sie, dass das Tool strukturierte Fehler zurückgibt, von denen ein Agent sich erholen kann. Das größte Beobachtungselement ist Portabilität: WebMCP ist vorgeschlagen, nicht fertig, halten Sie also Tool-Verträge klein und vermeiden Sie es, Ihre gesamte Agent-UX auf eine Draft-API zu setzen.

[48:00] Google AI Studio – Workspace, Antigravity-Export und Android-Generierung

Das I/O-Update von Google AI Studio ist bedeutsam, weil es mehrere App-Building-Oberflächen miteinander verbindet, die normalerweise isoliert existieren. Generierte Apps können in Workspace-APIs integriert werden, Projekte können nach Antigravity exportiert werden, und der Mobile-Build-Modus kann native Android-Apps mit einem In-Browser-Emulator, ADB-Geräteflows und Play Internal Test Track-Publishing generieren.

Die Bedeutung für Entwickler liegt in der Kontinuität. Ein Prototyp kann in AI Studio beginnen, reale Workspace-Daten berühren, in Antigravity für tiefere agentische Codierung übergehen und ohne erneutes Aufbauen des Kontexts an jeder Schnittstelle in einen Android-Testtrack fortgesetzt werden. Dies ist ein anderer Workflow als ein Chat-Prototyp, der eine ZIP-Datei erzeugt und den Rest des Produktpfads manueler Arbeit überlässt.

Der Vorbehalt betrifft die Governance. Die Workspace-Integration bedeutet reale Daten und reale Berechtigungen, daher erfordern generierte Apps eine explizite OAuth-Scope-Prüfung, Testbenutzer-Kontrollen und einen klaren Übergang von Prototyp-Zugangsdaten zu Produktions-Zugangsdaten. Die Android-Generierung erfordert ebenfalls normale Mobile-Hygiene: Paketidentität, Signierung, interne Verteilung, Gerätetests und Telemetrie. Das nützliche mentale Modell ist nicht „AI Studio ersetzt die App-Pipeline", sondern „AI Studio reicht jetzt weiter in die App-Pipeline hinein vor dem Übergabepunkt".

[55:30] Chrome DevTools for Agents – Browser-Verifizierung wird Teil der Codierungsarbeit

Chrome DevTools for Agents bietet Coding-Agenten eine Browser-Verifizierungsspur: verwaltetes Browser-Handover, Responsive-Emulation, Geolocation-Emulation, aktives Chrome-Session-Debugging und Lighthouse-Automatisierung. Dies ist verwandt mit WebMCP, löst aber ein anderes Problem. WebMCP dreht sich darum, dass Seiten explizite Tools bereitstellen. DevTools for Agents geht es darum, einem Coding-Agenten zu ermöglichen, die Seite zu verifizieren, die er gerade geändert hat.

Diese Unterscheidung ist wichtig. Ein Code-Agent kann Tests bestehen und dennoch ein gebrochenes Layout, einen Konsolenfehler, eine fehlgeschlagene Netzwerkanfrage, ein unzugängliches Steuerelement oder eine langsame Seite ausliefern. Browser-Handover ermöglicht dem Agenten, die reale Runtime-Oberfläche zu inspizieren, anstatt am Quellcode stehenzubleiben. Responsive- und Geolocation-Emulation machen die Verifizierung weniger Desktop-orientiert. Lighthouse bietet einen strukturierten Prüfpfad für Performance- und Barrierefreiheitsprobleme.

Für Teams verschiebt dies die UI-Arbeit in Richtung einer engeren Schleife: Code bearbeiten, App ausführen, realen Seitenzustand inspizieren, Browser-Nachweis erfassen, dann patchen. Das Augenmerk liegt darauf, wie viel von dieser Schleife über Frameworks und lokale Dev-Server hinweg zuverlässig und scriptbar wird. Je stabiler sie wird, desto weniger akzeptabel wird es, dass Coding-Agents behaupten, Frontend-Arbeit sei abgeschlossen, ohne die gerenderte Seite zu betrachten.

[63:00] GitHub Copilot Business und Enterprise – GPT-5.3-Codex wird das Basismodell

GitHub macht GPT-5.3-Codex zum Basismodell für Copilot Business und Enterprise. Die wichtigen Details sind Model-Approval-Gates, Langzeit-Support-Verfügbarkeit bis zum 4. Februar 2027, Premium-Request-Multiplikatoren, Timing der GPT-4.1-Einstellung und die Art und Weise, wie Basismodell-Standards das Fallback-Verhalten für Enterprise-Nutzer prägen.

Für einzelne Entwickler kann ein Modell-Upgrade wie eine Präferenz wirken. Für eine Organisation ist es eine Richtlinie. Das Basismodell beeinflusst, was Tausende von Nutzern standardmäßig erhalten, welche Workloads Premium-Requests verbrauchen, welche Modelle eine Genehmigung benötigen und wie lange älteres Verhalten verfügbar bleibt. Langzeit-Support ist wichtig, weil Teams Zeit benötigen, um das Code-Generierungsverhalten, Security-Review-Muster und interne Richtlinien zu validieren, bevor ein altes Modell verschwindet.

Die praktische Empfehlung ist, die Änderung als Governance-Migration zu behandeln, nicht nur als bessere Modell-Ankündigung. Bestätigen Sie, welche Modelle genehmigt sind, prüfen Sie Premium-Request-Multiplikatoren gegen die reale Nutzung, identifizieren Sie Workflows, die noch vom GPT-4.1-Verhalten abhängen, und dokumentieren Sie den Fallback-Pfad, bevor das Einstellungsfenster schließt.

[70:00] Abschluss – Was als nächstes zu testen ist

Die Upgrade-Checkliste ist praktisch. Für Codex: Python SDK-Auth, String-Turns, TurnResult, schema-beschränkte Fortsetzung, Remote-Keepalives, Bildtreue und Goal-Loop-Stopp testen. Für Claude Code: claude agents --json, OTEL-Agent-IDs, Status-Zeile-GitHub-Felder, Plugin-Vorschau-Daten, Hook-Payloads und Bash-Umgebungsvariablen-Berechtigungsaufforderungen testen. Für Gemini Managed Agents: stateful Follow-up-Interaktionen und Dateipersistenz testen. Für WebMCP und Chrome DevTools: eine hochwertige Browser-Aktion plus eine Verifizierungsschleife für gerenderte Seiten testen. Für AI Studio und Copilot: Scopes, Übergabepfade, Approval-Gates und Kostenkontrollen überprüfen, bevor sie in die tägliche Arbeit integriert werden.