Episode 59: Hermes Agent 0.15.x, Codex 0.135, Claude Code

OpenClaw v2026.5.27 bleibt die stabile OpenClaw-Baseline, während v2026.5.28 ein Beta-Beobachtungspunkt ist und Hermes Agent v2026.5.29.2 das neue stabile Agent-Stack-Release-Ereignis darstellt. Codex 0.135, Claude Code 2.1.157 und Opus 4.8 vervollständigen den Release-Kontext für EP059. Hermes erhält die größte Plattform-Bewegung: Kanban-Orchestrierung, Worktree-pro-Aufgabe-Ausführung, geplante Aufgaben, schnellere Sitzungssuche, Promptware-Verteidigung, Skill-Bundles, MCP-Katalog-Auswahl, ntfy-Messaging und Folgef推ts für Loopback-Dashboards, Docker-Insecure-Modus, MCP-PATH-Auflösung, .md-Medien und Plugin-Verpackung. Codex fügt bessere Diagnosen, Remote-Status, benannte Berechtigungsprofile, SDK-Sandbox-Voreinstellungen, Unterstützung für nicht-interaktive Installation und TUI/Laufzeit-Zuverlässigkeit hinzu. Claude Code fügt Opus 4.8, dynamische Workflows, automatisches Plugin-Laden aus .claude/skills, Plugin-Gerüstbau, Worktree-Wechsel, Telemetrie-Detailoptionen und Bereinigung von Hintergrundsitzungen hinzu. Dann bewegt sich die Episode in Workspace-Agent-Richtlinien, Browser-Laufzeit-MCP, Codefluss-Graphen, Nutzungstelemetrie und agent-generierte Medien.

[00:00] Eröffnung: Agent-Stacks werden einfacher zu inspizieren Das nützliche Thema heute ist Inspectability. Hermes macht Orchestrierung sichtbar. Codex benennt mehr der Laufzeit durch doctor, /status, Profile und SDK-Sandbox-Voreinstellungen. Claude Code bringt Workflows, Plugins, Aufwand, Worktrees und Hintergrundsitzungen auf klarere Gleise. OpenAI-Workspace-Agents erhalten Richtlinienkontrollen rund um Veröffentlichung, Slack, Sprachausgabe und App-Aktionen. Die Projektspur behält dieselbe Form: Browser-Zustand, Codefluss-Zustand, Nutzungskosten und Medien-Rendering werden alle zu Dingen, die ein Agent abfragen kann, anstatt zu raten.

[03:00] OpenClaw und Hermes Agent Release-Auslesung OpenClaw beginnt diesen Release-Block als Stabilitätsprüfung. Das neueste stabile Tag bleibt v2026.5.27, was bedeutet, dass die Inhaltsgrenze, Codex-App-Server-Wiederherstellung, Provider-Katalog, Embedding-Provider, VLLM-Thinking-Parameter, Kanalzustellung und Metadata-Cache-Arbeit aus dem vorherigen stabilen Release immer noch die Baseline ist. Die neuere v2026.5.28-Linie ist als Beta-Material sichtbar, und es lohnt sich, sie zu beobachten, da die Beta-Notizen auf die genauen Oberflächen zeigen, die lokale Agent-Stacks betreffen: App-Server-Wiederherstellung, Subagent cwd/workspace-Trennung, Hook-Kontext-Isolation, Timeout-Sperre-Freigabe, stale-Neustart-Vermeidung, Kanalidentität, Discord-recoverte Tool-Warnungen, Slack- und Telegram-Zustellpfade, malformed-Callback-Ablehnung, Provider-Zugaben und Browser-Timeout-Validierung. Weil es sich um Beta handelt, gehört es in die Beobachtungsspur statt in die stabile Upgrade-Spur.

Hermes Agent hat das größte stabile Agent-Stack-Release des Tages. Die 0.15-Linie bewegt viel Maschinerie in Kernprodukt-Oberflächen. Kanban ist nicht mehr ein dünnes Board um Prompts herum; es wächst Orchestrierungsfunktionen wie Auto-Dekomposition, Swarm-Topologie, geplante Aufgaben, Worktree-pro-Aufgabe-Ausführung und per-Aufgabe-Modell-Überschreibungen. Das ist wichtig, weil Multi-Agent-Arbeit durable Zuweisung, Isolation und Wiederherstellung braucht. Ein Board ist nur nützlich, wenn Arbeit geteilt, beansprucht, wiederholt und inspiziert werden kann, ohne sich in einen losen Haufen von Chat-Transkripten zu verwandeln.

Die Codebase-Form hat sich auch geändert. Der große run_agent.py-Pfad wurde in kleinere Module aufgeteilt, Kaltstart wurde erneut verbessert und session_search wurde dramatisch schneller und kostenlos. Der praktische Wert ist einfach: Wenn ein lokaler Agent viele Sitzungen, viele Tools und viel erinnerte Arbeit hat, werden Such- und Startup-Kosten Teil des Workflows. Langsame Suche lässt Erinnerung falsch fühlen. Schnelle Suche macht vorherige Arbeit erreichbar.

Hermes fügt auch Promptware-Verteidigung, Bitwarden Secrets Manager-Unterstützung, Skill-Bundles, eine Ink Multi-Session-TUI, zwei Bildgenerierungs-Provider, einen Nous-genehmigten MCP-Katalog mit interaktivem Picker, ntfy-Messaging und tiefere xAI-Integration hinzu. Die Folgen Releases sind auch wichtig. Der Dashboard-Loopback-401-Reload-Loop ist behoben. Docker-Insecure-Modus wird ein explizites Opt-in statt aus Bind-Host abgeleitet. MCP-Bare-Command-PATH-Auflösung verbessert sich. Markdown-Medienzustellung ist wiederhergestellt. Verpackung enthält jetzt gebündelte Plugin-Manifeste in Wheel- und Source-Distributionen.

[12:00] Codex 0.135 macht Ausfälle besser diagnostizierbar Codex 0.135 ist nicht das lauteste Release, aber es verbessert die Alltags-Unterstützungsoberfläche. codex doctor meldet jetzt reichhaltigere Umgebungs-, Git-, Terminal-, App-Server- und Thread-Inventar-Diagnosen. Diese Art von Befehl ist wichtig, weil Coding-Agent-Ausfälle oft umgebungsbedingt sind: der Shell-Helfer ist falsch, der App-Server ist stale, der Remote-Transport ist mismatched, der Repo-Zustand ist überraschend oder das Terminal korruptiert Ausgabe.

Remote /status zeigt jetzt Verbindungsdetails und Server-Version, wenn die TUI über einen Remote-Transport verbunden ist. /permissions versteht benannte Berechtigungsprofile und zeigt benutzerdefinierte Profile an. Verpackte Builds können den gebündelten gepatchten zsh-Helfer über unterstützte macOS- und Linux-Ziele hinweg entdecken. Das Python SDK fügt freundliche Sandbox-Voreinstellungen für Thread- und Turn-APIs hinzu. Install-Skripte unterstützen nicht-interaktive Installation durch CODEX_NON_INTERACTIVE=1.

Die Fixes sind auch praktisch: Markdown-Tabellen und mehrzeilige Listen rendern lesbarer, TUI-Ausgabe ist stabiler auf macOS und Zellij, Slash-Command-Vervollständigung bewahrt Entwurfstext, ältere tmux- und iTerm-Control-Mode-Sitzungen behalten normales Ctrl-C-Verhalten, Extension-Tools zeigen Fehler besser, Remote-Anhänge hängen korrekt an, App-Server-Laufzeit respektiert Modellwahlen und getrennte MCP-Tools hören auf, als laufend angezeigt zu werden. Das Release geht darum, lokale und Remote-Codex-Läufe leichter erklärbar zu machen, wenn sie sich schlecht benehmen.

[19:00] Claude Code 2.1.157 und Opus 4.8 Claude Codes neueste Spur bewegte sich durch eine Opus-4.8-Release-Welle. Version 2.1.154 fügt Opus-4.8-Unterstützung, dynamische Workflows, schnelle Modus-Änderungen, Aufwandslabel-Updates, Hintergrund-Shell-Dispatch von claude agents, Standard-Streaming-Tool-Ausführung, stdio-MCP-Sitzung-Umgebungsvariablen und Pending-Approval-Rendering für .mcp.json-Server hinzu. Das dynamische Workflow-Stück ist der wichtigste Teil: Es ermöglicht Claude Code, größere Vorhaben über Hintergrundagenten und Workflow-Status zu organisieren, statt eine Vordergrund-Wendung die ganze Arbeit tragen zu lassen.

Version 2.1.156 behebt ein Thinking-Block-Problem bei Opus 4.8. Version 2.1.157 verwandelt dann Plugin- und Worktree-Verhalten in einen direkteren Pfad. Plugins in .claude/skills-Verzeichnissen werden automatisch geladen. claude plugin init erstellt ein Gerüst für ein neues Plugin. /plugin-Autocomplete verbessert sich. claude agents respektiert das konfigurierte Agent-Feld in settings.json. EnterWorktree kann zwischen Claude-verwalteten Worktrees wechseln. Tool-Entscheidungs-Telemetrie kann Tool-Parameter einschließen, wenn der Benutzer Detail-Option wählt. Abgeschlossene Worktrees bleiben entsperrbar, damit Bereinigung sie bereinigen kann.

Anthropics Opus-4.8-Release ist die Modellseite derselben Bewegung. Es ist positioniert für härtere Programmierung, agentische Aufgaben und professionelle Arbeit, mit unveränderten regulären Preisen gegenüber Opus 4.7 und günstigerem Fast-Modus als frühere Fast-Modus-Preisgestaltung. Die richtige Bewertung ist nicht nur, ob ein Benchmark sich bewegt hat. Es ist, ob das Modell plus Workflow-Schicht eine größere Aufgabe ausführen, bessere Fragen stellen, stillen Fehler vermeiden und seinen Worktree danach aufräumen kann.

[27:00] Workspace-Agents brauchen Richtlinien, weil sie jetzt in geteilten Kanälen leben OpenAIs Workspace-Agent-Release-Notizen zeigen eine andere Richtung: Agents werden zu geteilten Workspace-Akteuren. Workspace-Agents können GPT-5.5 mit Reasoning-Effort-Kontrollen verwenden. Admins können kontrollieren, welche Rollen Agents in ein geteiltes Verzeichnis veröffentlichen. Geführtes Setup hilft Benutzern, Agents zu konfigurieren. Agents können Audiodateien produzieren. Slack-Agents können auf relevante Folgenachrichten in einem Thread nach der initialen Erwähnung antworten. Builder können Safeguards für Aktionen in jeder aktivierten App definieren.

Diese Details sind wichtig, weil geteilte Agents andere Risiken haben als persönlicher Chat. Ein Slack-Thread-Agent kann nur nützlich sein, wenn er weiß, wann eine Nachfolge relevant ist und wann er ruhig bleiben soll. Ein Sprachausgabe-Agent braucht Speicher, Überprüfung und Verteilungs-Erwartungen. Ein geteiltes Verzeichnis braucht Veröffentlichungsberechtigungen, nicht nur einen Haufen cleverer Prompts. App-Safeguards müssen gesetzt werden, bevor der Agent schreibfähige Tools bekommt.

Codex-Remote-Zugriff und Zugriffs-Token passen in dasselbe Muster. Die Maschine, die die Dateien und Anmeldedaten besitzt, bleibt die Ausführungsgrenze, während Telefone, Skripte und verwaltete Workspace-Identität zu Kontrollflächen werden. Das ist die stabile Architektur für Agent-Arbeit: in der Nähe der Daten ausführen, von dem Kanal aus überwachen, der zum Moment passt, und Identität begrenzt halten.

[34:00] Browser-Laufzeit-MCP schlägt Raten aus der Quelle Chrome DevTools MCP ist ein gutes Projekt zum Beobachten, weil Frontend-Agents Browser-Evidenz brauchen. Ein Modell kann Quelldateien lesen und trotzdem das Laufzeitproblem verpassen: Eine Netzwerkanfrage schlug fehl, ein Konsolenfehler geschah nach Hydration, eine CSS-Regel wurde überschrieben, eine Seiten-ID änderte sich oder ein Performance-Problem erscheint nur, wenn die App läuft. Ein DevTools-gestützter MCP-Bridge lässt den Agent den tatsächlichen Browser-Zustand inspizieren.

Das aktuelle Release ist ein kleiner CLI-Seiten-ID-Fix, aber die Projektform ist größer als dieser Patch. MCP kann DOM, Konsole, Netzwerk, Laufzeit und Performance-Oberflächen in einer Weise exponieren, die Coding-Agents abfragen können. Das unterscheidet sich von visueller Computernutzung. Screenshots zeigen, was ein Benutzer sieht; DevTools-Zustand erklärt, warum der Browser sich so verhielt. Für lokale Apps ist die beste Schleife Evidenz zuerst: reproduzieren, inspizieren, patchen, verifizieren.

[39:00] Codefluss, Nutzungskosten und generierte Medien werden agent-lesbar Die Projektradar hat drei weitere nützliche Oberflächen. CodeGraph gibt Agents einen lokalen vor-indizierten Code-Wissensgraphen. Sein neuestes Release verbessert Go-gRPC-Implementierungsauflösung, depriorisiert generierte Dateien, behandelt Dynamic-Dispatch-Trace-Brüche durch Einbeziehung von Endpunktquelle plus Aufrufer und Aufgerufene, verbessert Multi-Modul-Endpunkt-Auswahl und inlined Routing-Kontext für kleine Projekte. Das ist, was ein Coding-Agent braucht, wenn eine Frage über Fluss geht, nicht nur Text-Matches.

ccusage greift einen anderen blinden Fleck an: Nutzung und Kosten. Sein aktuelles Release fügt Opus-4.8-Preise, Fallback-Preisgestaltung, fehlende-Preis-Warnungen, Copilot-Telemetrie-Erklärungen, opencode-Kosten-Fixes und Release/Install-Verbesserungen hinzu. Wenn Hintergrund-Workflows und Multi-Agent-Läufe normal werden, hört Nutzungstelemetrie auf, Buchhaltungs-Trivialität zu sein. Es wird Scheduler-Input. Ein System, das Modellkosten, fehlende Preisgestaltung und Telemetrie-Lücken kennt, kann ein kleineres Modell wählen, auf ein Budget-Fenster warten oder stoppen, bevor eine Aufgabe verschwenderisch wird.

Hyperframes ist das Medien-Gegenstück. Es behandelt Video als HTML-Quelle plus renderbare Laufzeit, was generierte Medien inspizierbarer macht. Agents können Quelle editieren, rendern, inspizieren, Playback-Verhalten patchen und die Medienszene in Versionskontrolle halten. Das ist zuverlässiger, als ein finales MP4 als erstes echtes Artefakt zu behandeln.

[46:00] Ende Die praktische Queue aus EP059 ist klar. Hermes ist die wichtige Plattform-Veröffentlichung zum Studieren. Codex zeigt besser, welche Umgebung und Berechtigungen es tatsächlich verwendet. Claude Code rückt Workflows, Plugins, Aufwand und Worktrees in den Vordergrund. Opus 4.8 verändert die High-End-Coding-Modell-Spur. Workspace-Agents brauchen Richtlinien, weil sie nun in gemeinsamen Kanälen operieren. Browser MCP, Code-Graphen, Nutzungstelemetrie und quellengesteuerte Medien sind die Werkzeugschicht, die Agentenarbeit weniger geheimnisvoll macht. Der beste Stack ist nicht der mit den meisten laufenden Agents. Es ist der, bei dem jeder Agent die Runtime sehen, den Code-Pfad kennen, das Budget verstehen und Spuren hinterlassen kann.