Episode 56: OpenClaw, Codex, Claude Code, Hermes, Appshots

OpenClaw v2026.5.20 führt, weil es die Oberflächen verändert, von denen ein Agent tatsächlich abhängt: Policy-Prüfungen, sicherere Secrets, Provider-Routing, Cron-Ausgabe, Subagent-Abschluss, Sprachkontext und Bild-Timeouts. Hermes v2026.5.16 bekommt ein eigenes praktisches Segment, weil es Installation, lokalen Proxy, Provider-Authentifizierung, Browser-Geschwindigkeit, Messaging, LSP-Diagnosen, Dateiänderungsverifizierung, Computernutzung und Codex/Claude-adjazente Workflows verändert. Codex rust-v0.133.0 fügt Zielspeicherung, Fernsteuerungsbereitschaft, Berechtigungsprofile, Plugin-Erkennung und Lifecycle-Hooks hinzu. Claude Code 2.1.148 folgt einem größeren Terminal-Agent-Update mit angehefteten Sitzungen, Code-Review, MCP-Paginierung, Durchsetzung von Enterprise-Policies, Windows-Reparaturen, Berechtigungswiederverwendung und Bash-Zuverlässigkeit. Danach bewegt sich die Episode schnell durch Appshots, MCP-Tunnels, dauerhafte Agent-Ausführung, Agent-Substrat-Infrastruktur, Antigravity-Migration, Small-Model-Computernutzung, Daten-Agents, API-Key-Härtung und Copilot-Planungstools.

[00:00] Eröffnung zu den Releases, die die tägliche Agentenarbeit verändern Beginne mit den vier Tools, die Entwickler diese Woche am wahrscheinlichsten anfassen werden: OpenClaw, Codex, Claude Code und Hermes. Halte die erste Minute lebhaft: Der Stack ist nicht mehr nur „ein Modell fragen"; es geht um Policy, Authentifizierung, Ziele, Plugins, lokale Proxies, Browser-Zustand, Messaging, Hintergrundsitzungen und Genehmigungen. Verspreche für jede wichtige Geschichte eine konkrete „jetzt ausprobieren"-Aktion.

[03:00] OpenClaw, Codex und Claude Code Upgrade-Pfad OpenClaw: Führe openclaw doctor aus, prüfe Policy-Erkenntnisse, verifiziere Klartext-Secret-Warnungen, bestätige, dass Token-Dateien nicht symlinked sind, teste OpenRouter Provider-Routing, führe eine Cron-Aufgabe aus, die mit Diagnosewarnungen endet, und führe eine Subagent-Aufgabe aus, die abschließt, nachdem die übergeordnete Sitzung fortgeschritten ist. Behandle das Release als Host-Runtime-Änderung, nicht nur als Chat-Modell-Änderung: Policy, Konfiguration, Authentifizierung, Provider-Auswahl, geplante Ausführung, Subagent-Lieferung, Browser/Bild-Bereinigung, Sprachkontext, Nachrichtenlieferung, Timeout-Verhalten, Diagnosen und Wiederherstellung benötigen alle einen benannten Test. Codex: Erstelle eine zielgesteuerte Aufgabe, teste codex remote-control, liste Berechtigungsprofile auf, prüfe Plugin-Erkennungsausgabe und entscheide, welche Lifecycle-Events protokolliert werden sollten. Die architektonische Bewegung ist dauerhafter Zielzustand, explizite Berechtigungsprofile, inspizierbares Plugin-Inventar und Erweiterungshooks rund um Tool-Ausführung, Turns, Subagents und Genehmigungen. Claude Code: Teste eine angeheftete Hintergrundsitzung, /code-review auf einem echten Diff, MCP-Paginierung gegen einen Server mit mehr als einer Seite, Hintergrund-Berechtigungswiederverwendung, Windows-Shell-Pfade falls relevant, und den Bash-Regressionspfad. Die zu beobachtenden Fehlermodi sind konkret: Fehlende MCP-Ressourcen nach Seite eins, eine Hintergrundsitzung fragt erneut nach einer bereits gewährten Berechtigung, Enterprise-Login-Policy wird über einen anderen Provider-Pfad umgangen, oder Shell-Befehle melden den falschen Exit-Status. Erfasse API- und SDK-Verhalten, Runtime-Architektur, Evaluierungsnotizen, Benchmark-Beweise, Observabilitäts-Signale, Sicherheits- und Datenschutzgrenzen, Deployment-Konfiguration, Latenz, Durchsatz, Kosten, Speicher, Scheduler-Zustand, Logs, Trace-IDs, Request/Response-Form und Retry-Verhalten, während die Aufgabe klein ist. Der nützliche Setup-Zug ist eine kleine Verifizierungsmatrix: eine Kanalaktion, ein geplanter Lauf, ein provider-gerouteter Modellaufruf, eine Tool-Genehmigung, eine MCP-Inventarabfrage, eine Browser/Bild-Operation und ein delegierter Subagent.

[10:00] Hermes Agent als praktisches lokales Benchmark Hermes verdient ein eigenes Segment. Das Foundation-Release fügt den einfachen PyPI-Installationspfad, hermes proxy, OAuth-basierte Provider, SuperGrok, X-Suche, Teams, Lazy-Installs, schnelleren Start, Browser-Konsole-Beschleunigung, LINE, SimpleX, /handoff, native Klärungsbuttons, Discord-Backfill, Pixel-Vision, Dateimutationsverifizierung, LSP-Diagnosen, einsteckbare Videogenerierung, breitere Computernutzung, Zed ACP Registry-Integration, OpenRouter Pareto Code-Routing, optionale Skills, API-Genehmigungs-Events und Plugin-seitige LLM-Aufrufe hinzu. Wandle das in einen Testpfad um: Installiere oder aktualisiere, führe hermes doctor aus, starte den Proxy, richte einen OpenAI-kompatiblen Client darauf aus, teste eine Browser-Inspektion, bearbeite eine kleine Datei und beobachte LSP-Feedback, übergebe eine Sitzung und probiere einen Klärungsbutton-Pfad aus. Der Nutzen ist nicht „jedes Feature nutzen"; es geht darum, Hermes zu einem schärferen Benchmark für Codex, Claude, lokale Provider und Chat-Oberflächen zu machen.

[17:00] Codex Appshots und Zielmodus Verwende Appshots, wenn ein UI- oder Desktop-App-Problem einfacher zu zeigen als zu beschreiben ist. Das nützliche Bundle ist Screenshot plus verfügbener Text plus dauerhaftes Ziel. Browser-Annotationen machen visuelles Feedback spezifisch. Read-only JavaScript-Kontext macht Inspektion sicherer. Gesperrte Computernutzung ist für überwachte lange lokale Aufgaben gedacht, wo der Mac vor Abschluss der Ausführung sperren kann. Probiere dies mit einem UI-Problem: Erfasse den schlechten Zustand, setze ein Ziel, bitte um die kleinste Codeänderung, führe die Seite aus und erfasse einen zweiten Zustand, bevor du das Ergebnis akzeptierst.

[22:00] Sichere MCP-Tunnels Verwende sichere MCP-Tunnels, wenn ein privates Tool für einen Agent erreichbar sein soll, ohne eingehende Firewall-Ports zu öffnen. Der Tunnel löst Konnektivität, nicht Autorisierung. Bevor du einen privaten MCP-Server verbindest, definiere die Tool-Allowlist, Konto/Projekt-Bindung, Audit-Trail, lokale Server-Vertrauensgrenze und Secret-Pfad. Vermeide es, einen Tunnel in eine universelle Private-Network-Brücke zu verwandeln. Baue den ersten als read-only und erfordere menschliche Genehmigung vor mutierenden Aufrufen.

[27:00] Google Agent Executor und dauerhafte Agent-Läufe Agent Executor ist wichtig, weil langlebige Agents Event-Logs, Snapshots, Reconnect/Backfill, isolierte Actors, Single-Writer-State und verzweigbare Trajektorien benötigen. Versuche eine aktuelle Agent-Aufgabe auf diese Teile abzubilden: Welcher Event-Stream existiert, wo wird State gespeichert, wie funktioniert Resume, wie verzweigt man einen fehlgeschlagenen Pfad und welcher Beweis bleibt nach dem Lauf. Wenn das System das nicht beantworten kann, funktioniert der Agent vielleicht einmal, aber er ist noch nicht vertrauenswürdig genug für wiederholte langlebige Jobs.

[32:00] GKE Agent Sandbox und Agent Substrate GKE Agent Sandbox und Agent Substrate zielen auf die Workload-Form von Agent-Systemen: isolierte Sitzungen, viel Leerlaufzeit, schnelles Aufwecken, zustandsbehaftete Sandboxes und burstige Tool-Nutzung. Der praktische Test ist, ob Warm Pools, Snapshots, gVisor und Actor-Scheduling die Aktivierungsverzögerung reduzieren, ohne State und Debugging-Evidenz zu verbergen. Schätze aktive Sitzungen, Leerlauf-Sitzungen, beibehaltenen State, erlaubte Tools, Wake-Latenz und Kosten pro nützlicher Sitzung.

[37:00] Antigravity CLI-Migration Gemini CLI Consumer/Free-Nutzung stellt am 18. Juni 2026 keine Anfragen mehr bereit. Antigravity CLI wird das Planungsziel. Prüfe jetzt alle Gemini CLI-Aufgaben: Authentifizierung, Konfiguration, Skills, Hooks, Subagents, Plugins, Async-Jobs und Desktop/CLI-Kontextfreigabe. Führe einen existierenden Prompt durch den neuen Pfad, bevor die Frist abläuft, und dokumentiere, was sich geändert hat. Die Migration ist am einfachsten, während der alte Pfad noch antwortet.

[42:00] Microsoft MagenticLite und Small-Model-Computernutzung MagenticLite ist nützlich, weil es kleinere Modelle mit einem Harness, Sandbox, Genehmigungen und Browser/Datei-Tools kombiniert. Der Test ist nicht, ob ein kleines Modell alles kann. Es geht darum, welche Aufgaben cheap genug und reliable genug werden, wenn Orchestrator, Browser-Modell, Genehmigungspunkte und QEMU-Sandbox together designed sind. Beginne mit einer begrenzten Dashboard-Prüfung, Entwurfsformular-Ausfüllung, bekannter Web-Tool-Navigation oder sandboxed lokaler Bericht.

[47:00] Google Data Agent Kit Data Agent Kit paketiert Datenzugriff als konfigurierte Tools und Skills für Coding-Agents. Verwende es, wenn eine Datenaufgabe governed Zugriff auf BigQuery, AlloyDB, Spanner, Cloud Storage, Query-Validierung oder Drift-Checks benötigt. Die erste Designentscheidung ist Umfang: Was kann der Agent abfragen, was kann er schreiben, wie werden Credentials gespeichert und was sollte zusammengefasst statt in den Kontext eingefügt werden.

[51:00] Gemini API-Keys und Copilot-Planungstools Behandle Gemini API-Keys als bezahlte Bearer-Tokens. Erstelle eigenständige Projekte, schränke Keys auf die beabsichtigte API ein, füge Application-Restrictions hinzu, speichere serverseitige Keys in Secret Manager, überwache Request-Anzahl nach Credential-ID und rotiere Keys, die sich verbreiten. Verwende dann Copilot Semantic Issue Search vor Code-Änderungen: Gruppiere Issues nach Fehlermodus, Plattform oder Release-Bereich, und gib erst dann die eingegrenzte Aufgabe an einen Agenten. Wenn Copilot Auto das Modell wählt, protokolliere das Modell für hochriskante Änderungen.

[55:00] Abschluss Schließe mit einer konkreten Warteschlange: Upgrade OpenClaw/Codex/Claude Code, teste Hermes durch einen kleinen Proxy/Browser/LSP/Handoff-Test, erfasse einen Codex Appshot, designe einen MCP-Tunnel mit Berechtigungen vor Konnektivität, skizziere dauerhaften State für einen langlebigen Agent, migriere eine Gemini CLI-Aufgabe zu Antigravity, probiere eine Small-Model-Computernutzungs-Aufgabe in einer Sandbox, definiere den Umfang für ein Daten-Agent-Tool, schränke Keys ein und verwende Semantic Issue Search, bevor du einen Coding-Agent bittest zu editieren.