OpenClaw 2026.5.12, Hermes Foundation, Claude Code Hintergrundsteuerung und Gemini Agent Bereitstellungen — Episode 51 cover art
Episode 51·16. Mai 2026·46:55

OpenClaw 2026.5.12, Hermes Foundation, Claude Code Hintergrundsteuerung und Gemini Agent Bereitstellungen

AgentStack Daily EP051 beginnt mit einem Release-Überblick des Agent-Stack: OpenClaw v2026.5.12 reduziert die Kerninstallation, verstärkt Telegram, Codex, Plugins, Gateway, Browser und Konfigurationspfade und verbessert die Antwortzustellung. Hermes Agent 2026.5.16 fügt eine native Windows-Beta, PyPI-Installation, schnelleren Start, einen lokalen OpenAI-kompatiblen Proxy sowie Verbesserungen bei Vision, Video, Browser, LSP und Verifizierung hinzu. Claude Code 2.1.143 und 2.1.142 verschärfen Plugin-Abhängigkeiten, Hintergrund-Session-Flags, PowerShell-Verhalten und Worktree-Isolation. Show notes: https://tobyonfitnesstech.com/de/podcasts/episode-51/

🎧 Listen to Episode

[00:00] Hook — das Upgrade beginnt mit Installationsgröße, Polling-Resilienz und Hintergrund-Agenten

OpenClaw v2026.5.12 ist heute das Erste, worauf wir einen Blick werfen sollten, denn es verändert die Host-Surfaces, die entscheiden, ob ein Agent-Stack angenehm täglich auszuführen ist: was standardmäßig installiert wird, wie Telegram Event-Loop-Stalls übersteht, wie Codex/OpenAI-Auth-backing-Medien und MCP-Pfade sich verhalten, wie Plugin-Updates ein Blockieren vermeiden, und wie Reply-Delivery rich-only-Karten und Source-Replies behandelt. Daneben ist Hermes Agent 2026.5.16 ein großes Distributions- und Runtime-Release: natives Windows ist in der frühen Beta, pip install hermes-agent wird real, Cold Start sinkt, CDP-Browser-Aufrufe werden dramatisch schneller, und OAuth-backed Provider-Zugriff kann durch einen OpenAI-kompatiblen lokalen Proxy exponiert werden. Claude Code 2.1.143 und 2.1.142 fügen die Background-Session- und Plugin-Steuerungen hinzu, die relevant sind, wenn CLI-Agents echte unbeaufsichtigte Arbeit erledigen: abhängigkeitsbewusste Plugin-Aktivierung/-deaktivierung, projizierte Kontextkosten, Background-Worktree-Isolation, beibehaltene MCP- und Settings-Flags, PowerShell-Defaults und Limits für Stop-Hook-Loops.

Die externe Geschichte nach dem Release-Ausblick dreht sich um die Form der Produktions-Rollouts. Google Cloud ermöglicht es Gemini Enterprise Agent Platform-Nutzern jetzt, unveränderliche Agent-Revisionen zu erstellen und Traffic zwischen aktiven Revisionen aufzuteilen, während Priority PayGo allgemein verfügbar ist für vorhersagbarere Latenz ohne einen commiteten Throughput-Vertrag. Dann schließen wir mit einer Schema-Migration ab, die Builder nicht auf die letzte Woche verschieben sollten: Googles Interactions API ersetzt flache outputs durch eine getypte steps-Timeline und konsolidiert die Ausgabekonfiguration unter response_format.

[03:00] Agent-Stack-Release-Ausblick — OpenClaw v2026.5.12, Hermes Agent 2026.5.16 und Claude Code 2.1.143/2.1.142

OpenClaw v2026.5.12 ist kein einzelnes Headline-Feature-Release; es ist ein Host-Quality-Release. Die erste betreiberorientierte Änderung ist die Abhängigkeitsform. Bedrock, Bedrock Mantle, Slack, OpenShell-Sandbox, Anthropic Vertex, WhatsApp und zugehörige Pakete werden aus der Core-Runtime verschoben, sodass eine Installation nur das zieht, was sie braucht. Das ist wichtig, weil Agent-Hosts altern, wenn optionale Provider leise zu obligatorischen Abhängigkeitskegeln werden. Schlankere Installationen bedeuten weniger plattformspezifische Build-Fehler, kleineren Update-Blast-Radius und weniger Zeit beim Debuggen eines Providers, den du nie aktiviert hast.

Der zweite Änderungscluster ist die Kanalresilienz. Telegram-Polling wechselt zu einem isolierten Worker mit dauerhaftem lokalem Spooling, sodass ein Hauptevent-Loop-Stall weniger wahrscheinlich eingehende Nachrichten verwirft oder verzögert. Das Release bewahrt auch formatiertes HTML in Lazy-Cron-Ankündigungen, überspringt nicht erwähnte Gruppenmedien vor dem Download, wenn Mention-Gating aktiv ist, und löscht nur-Tool-Progress-Draft-Bubbles vor der Rotation zu einer echten Antwort. Das praktische Betreiber-Rezept ist einfach: nach dem Upgrade einen gestreamten Reply, eine geplante oder Cron-artige Ankündigung, einen Gruppenmedien-Edge-Case und einen unterbrochenen Turn testen. Dieses Release versucht, die Nachrichtenschicht wie einen Transport behandeln zu lassen, nicht wie einen fragilen UI-Nebeneffekt.

Die Codex- und OpenAI-Pfade sind der andere große OpenClaw-Grund zum Upgrade. Auth-Profile-backed-Medien-Tools bleiben verfügbar, wenn OpenAI-Credentials im Auth-Profile-Store des Agents statt in der Umgebung liegen. Codex-OAuth-Refresh-Fehler werden sauberer klassifiziert, hochkonfidiente App-Server-Refresh-Fehler kollabieren nicht mehr in rohe Runtime-Fehler, und auswählbare OpenAI-Agent-Modelle werden als Codex-Runtime-Anforderungen behandelt, auch wenn die primäre Konfiguration Anthropic ist. Das Release behält auch die per-Agent-CODEX_HOME-Isolation bei, ohne standardmäßig HOME umzuschreiben, was den Unterschied zwischen isolierten Codex-Credentials und dem Brechen normaler Subprocess-User-Home-Erkennung ausmacht. Für Builder, die gemischte Claude/OpenAI/Codex-Hosts betreiben, bedeutet das weniger falsche Reauth-Loops und weniger Modellwechsel-Fehler.

OpenClaw verschärft auch Plugin- und Gateway-Mechaniken. Plugin-Installationen bewahren Peer-Abhängigkeiten, handhaben pnpm 11, stellen einen deprecated Memory-SDK-Subpath für Companion-Plugins wieder her, scannen Runtime-Entry-Points enger, entdecken Provider-Plugins durch strukturierte Setup-Credentials und bewahren Installationsdatensätze durch Doctor-Cleanup. Gateway und Session-History tragen jetzt monotone Transkript-Sequenznummern und senden explizite deltaText- und replace-Frames, sodass SDK-Clients nicht lokal diffen müssen. Rich-only-Replies, Karten, Buttons und Message-Tool-only-Antworten werden als echte ausgehende Inhalte behandelt, statt als leer verworfen zu werden. Wenn du auf dem Gateway-Protokoll aufbaust, ist dies die Art von Release, bei der Client-Annahmen gegen Karten, Medien, Source-Replies und Reconnects getestet werden sollten, nicht nur gegen einfachen Text.

Security- und Config-Hardening sind auch konkret. Windows-User-Profile-Roots sind in Sandbox-blockierten Home-Roots enthalten, sodass credential-tragende Ordner verweigert werden, selbst wenn HOME woanders hinzeigt. Provider-Credentials werden durch strukturierte Secret-References statt durch breite environment-variablen-ähnliche Strings aufgelöst, was versehentliche Credential-Inferenz reduziert. Semantische Config-Mutationen werden zentral serialisiert und wiederholt, was das Clobber-Risiko reduziert, wenn gleichzeitige Befehle Config bearbeiten. Browser-CLI-Befehle fordern explizit den vorhandenen Operator-Admin-Gateway-Scope an, was Approval-Loop-Lärm vermeidet. Das sind keine glamourösen Änderungen, aber es sind genau die Änderungen, die einen Agent-Host davon abhalten, ein Credential-Unfall oder ein Update-Zeit-Mysterium zu werden.

Hermes Agent 2026.5.16 ist die breitere Runtime-Geschichte. Das Release benennt natives Windows-Support als frühe Beta, mit einem PowerShell-Installer, nativen Subprocess- und PTY-Pfaden, taskkill-basierter Prozessverwaltung, MinGit-Auto-Installation, Python-Stub-Erkennung, Ctrl+C-Erhaltung und vielen Windows-only-Fixes. Es liefert auch ein echtes PyPI-Wheel: pip install hermes-agent && hermes. Das ändert Onboarding, weil ein Benutzer nicht mehr ein Repo klonen oder einen benutzerdefinierten Shell-Installer ausführen muss, nur um den Agent auszuprobieren. Das Lazy-Dependency-Framework und der Advisory-Checker sind ebenso wichtig: schwere Provider-Bibliotheken werden bis zur ersten Verwendung verzögert, Installer-Fallbacks bewegen sich durch Extras-Tiers, und Install/Update-Scans suchen nach unsicheren Versionen.

Die Performance-Zahlen in Hermes sind值得关注, weil sie direkt auf das tägliche Agent-Gefühl abbilden. Das Release sagt, dass Cold Start um ungefähr neunzehn Sekunden durch Skills-Caching, Lazy-Imports, Disk-Cache-First-Modell-Lookup, verzögerte Provider-Bibliotheken und parallele Doctor-Checks sinkt. hermes tools All-Platforms fällt von ungefähr vierzehn Sekunden auf unter eineinhalb Sekunden. browser_console-Evaluierungen werden dramatisch schneller durch Wiederverwendung der persistenten CDP-WebSocket des Supervisors, statt eine frische DevTools-Session pro Aufruf zu spawnen. Für Browser-lastige Agents ist persistent CDP kein Implementierungsdetail; es ändert, ob ein Debugging-Loop sich instant anfühlt oder ständig auf Browser-Setup wartet.

Hermes fügt auch Fähigkeiten hinzu, die es mehr zu einem Hub machen. hermes proxy exponiert OAuth-authentifizierte Provider durch einen OpenAI-kompatiblen lokalen Endpunkt, sodass Tools wie Codex, Aider, Cline oder Editor-Erweiterungen mit Claude Pro, ChatGPT Pro, SuperGrok oder ähnlichen OAuth-backed-Accounts über eine Schnittstelle sprechen können, die sie bereits verstehen. Cross-Session einstündiges Claude-Prompt-Caching reduziert wiederholte Prefix-Kosten über Resumes und neue Sessions hinweg. vision_analyze übergibt jetzt Pixel an Visions-fähige Modelle, statt das Bild auf Text zu reduzieren. Ein einheitliches video_generate-Tool unterstützt einsteckbare Video-Provider. computer_use bekommt ein nicht-Anthropic-fähiges CUA-Driver-Backend. /handoff verschiebt die Live-Session zu einem anderen Modell, Persona oder Profil unter Beibehaltung von Kontext und Tool-History. Die operative Frage nach diesem Release ist nicht nur „Läuft Hermes?", sondern „Welche lokalen Tools sollten auf Hermes als ihren Provider-Bridge zeigen?"

Für Code-Schreib-Agenten fügt Hermes zwei Guardrails hinzu, die besonders relevant sind. LSP-semantische Diagnostiken laufen nach write_file und patch, sodass der Agent Sprachserver-Fehler in der geänderten Datei sieht, bevor Downstream-Arbeit fortgesetzt wird. Ein per-Turn-Datei-Mutation-Verifier-Footer teilt dem Agent mit, was sich tatsächlich auf der Disk geändert hat nach einem Turn, der Dateien schrieb. Das ist eine direkte Antwort auf einen häufigen Fehlermodus: das Modell glaubt, es hat eine Datei editiert, aber der Patch hat verfehlt, die falsche Region überschrieben oder einen silent Type Error produziert. Diagnostiken plus Mutationssummaries ersetzen keine Tests, aber sie verkürzen den Loop, bevor Tests überhaupt laufen.

Claude Code 2.1.143 und 2.1.142 runden die CLI-Agent-Seite ab. Plugin-Abhängigkeitsdurchsetzung bedeutet, dass das Deaktivieren eines Plugins jetzt abgelehnt wird, wenn ein anderes aktiviertes Plugin davon abhängt, mit einem Disable-Chain-Hinweis, und das Aktivieren eines Plugins erzwungenermaßen transitive Abhängigkeiten aktiviert. Der Plugin-Marketplace-Browse-Bereich zeigt projizierte Kontextkosten pro Turn und Aufruf, was Betreibern hilft zu sehen, wann ein Plugin nicht nur installiert, sondern teuer ist. Eine neue worktree.bgIsolation: "none"-Einstellung ermöglicht Background-Sessions, die Working Copy direkt zu editieren, wenn Git-Worktrees unpraktisch sind, während Worktree-Cleanup nicht mehr auf destruktives Entfernen zurückfällt, wenn git worktree remove fehlschlägt.

Die Background-Agent-Fixes sind die, die in echter Arbeit getestet werden sollten. Background-Sessions bewahren Modell und Effort-Level nach dem Aufwachen aus dem Idle. /bg bewahrt MCP-Config, Settings, Add-Dir, Plugin-Dir, Strict-MCP-Config, Fallback-Modell und Bypass-Permission-Verfügbarkeit über Respawn oder Detach hinweg. Claude Agents akzeptiert Flags für Add-Dir, Settings, MCP-Config, Plugin-Verzeichnisse, Permission-Mode, Modell, Effort und Skip-Permission-Defaults, und Background-Sessions, die vom Dashboard gestartet werden, respektieren den konfigurierten Default-Permission-Mode. MCP-HTTP- und SSE-Tool-Aufrufe respektieren jetzt den konfigurierten Timeout, statt bei sechzig Sekunden gekappt zu werden. Stop-Hooks, die weiter blockieren, enden jetzt mit einer Warnung nach acht aufeinanderfolgenden Blocks, es sei denn, sie werden überschrieben. Kurz gesagt: weniger Background-Worker verlieren ihre Umgebung, Permissions, Modell oder langlaufende MCP-Aufrufe.

[24:00] Gemini Enterprise Agent Platform — Revisionen, Traffic-Splitting und Priority PayGo

Das Update der Google Cloud Gemini Enterprise Agent Platform vom 15. Mai fügt eine Deployment-Primitive hinzu, die Agent-Teams brauchen: unveränderliche Agent-Revisionen mit Traffic-Splitting. Bevor diese Art von Feature existierte, verhielt sich ein Agent-Deployment oft wie ein mutabler Service-Endpunkt. Du aktualisierst Prompt, Tools, Modelleinstellungen, Routing oder Container-Code; der Endpunkt ändert sich; und Rollback hängt davon ab, wie diszipliniert dein Release-Prozess war. Revisionen geben dir ein benanntes Deployment-Artefakt. Traffic-Splitting ermöglicht es dir, einen kontrollierten Prozentsatz des Produktions-Traffics zur neuen Version zu bewegen, während die alte Version noch die meisten Nutzer bedient.

Das klingt nach Standard-Software-Deployment, aber es ist wichtiger für Agents, weil eine kleine Änderung Tool-Wahl, Latenz, Weigerungsverhalten, Speichernutzung oder Halluzinationsprofil verändern kann. Ein Canary-Release für eine deterministische API beobachtet oft Fehlerrate und p95-Latenz. Ein Canary-Release für einen Agent sollte diese plus Task-Abschluss, Tool-Call-Anzahl, Eskalationsrate, Nutzerkorrekturrate, Retrieval-Miss-Rate und Kosten pro erfolgreichem Ergebnis beobachten. Revisions-IDs sollten in Traces, Logs, Evaluationsdatensätzen und Nutzerfeedback-Bundles erscheinen. Wenn du nur den Endpunkt-Namen loggst, wirst du nicht wissen, welche Agent-Version eine Regression verursacht hat.

Das Priority-PayGo-Update vom 14. Mai fügt die Kosten- und Latenzseite der Geschichte hinzu. Provisioned Throughput ist am besten, wenn du den Traffic kennst und commiten kannst. Standard PayGo ist flexibel, kann aber variable Performance haben. Priority PayGo sitzt dazwischen: konsistentere Performance als Standard-Konsum ohne das upfront Commitment. Für Produktions-Agents mappt das auf Workloads, die wichtig, aber bursty sind: Kundensupport-Triage, interne Rechercheassistenten, Incident-Helfer und Workflow-Agents, die während Geschäftszeiten oder Ausfällen spike.

Die Builder-Empfehlung ist, diese beiden Releases zusammen zu betrachten. Nutze Revisionen und Traffic-Splitting, um Verhaltensänderungen sicher zu machen. Nutze Priority PayGo, wo Latenzvarianz den Rollout schlechter aussehen lassen würde, als er ist. Wenn eine neue Agent-Revision langsamer ist, weil die Plattform unter variabler Last steht, könntest du eine Modell- oder Prompt-Regression fehldiagnostizieren. Wenn eine neue Revision tatsächlich Tool-Calls oder Retrieval-Tiefe erhöht, wird Priority PayGo das Kostenprofil nicht verbergen; du brauchst immer noch per-Revision-Metriken. Das minimale nützliche Rollout-Dashboard sollte Revision, Traffic-Share, Latenz, Modell-/Tool-Kosten, Tool-Fehler, menschliche Eskalation und Task-Erfolg zeigen.

[34:00] Gemini Interactions API — von flachen Outputs zu einer getypten Steps-Timeline

Googles Interactions API Breaking-Change-Guide ist eine Schema-Migration mit größeren Agent-Design-Implikationen. Die alte Form gab ein flaches outputs-Array zurück. Die neue Form gibt ein steps-Array mit Type-Diskriminatoren zurück. Für eine einfache Anfrage könntest du immer noch das letzte Text-Chunk nehmen und weitergehen. Aber für langlaufende Agents, Recherche-Agents, Tool-nutzende Agents und zukünftige asynchrone Tool-Calls ist eine Timeline die richtige Abstraktion. Ein Turn ist nicht nur die finale Antwort; er ist Benutzereingabe, Modellausgabe, Tool-Aktivität, Zwischenzustand und potenziell Steering-Events.

Der Guide ändert auch die Ausgabekonfiguration. Statt response_mime_type wandern Ausgabesteuerungen in ein polymorphes response_format. Das reduziert die Anzahl der Ad-hoc-Felder, die Clients verzweigen müssen, und gibt der API Raum, strukturierte Modi hinzuzufügen, ohne einen Haufen unzusammenhängender Request-Parameter wachsen zu lassen. Für SDK-Maintainer ist dies ein Type-Generation- und Kompatibilitätsproblem. Für App-Builder ist es ein Persistenzproblem: Update Response-Reader, Fixtures, Tests und Datenbankschemas, die angenommen haben, dass outputs[-1].text die kanonische Antwort war.

Das Migrations-Kontrolldetail ist der Api-Revision-Request-Header. Das gibt Teams eine Möglichkeit, Verhalten während der Migration zu pinnen, statt das Entfernungsdatum durch Produktionsfehler zu entdecken. Der Guide sagt, dass das Legacy-Schema am 8. Juni entfernt wird, also ist der praktische Plan: füge Dual-Read-Support hinzu, speichere rohe Interaktionsobjekte während der Migration, aktualisiere Summaries und Replay-Tools, um steps zu verstehen, und lasse eine kleine Menge alter Transkripte durch den neuen Parser laufen. Wenn deine Agent-Logs für Evals, Support oder Audit genutzt werden, wirf Step-Types nicht einfach weg, nur um eine alte Text-only-Form beizubehalten.

Der Grund, warum dies ein Episodensegment wert ist, liegt in der Zukunftsrichtung, die es signalisiert. Google sagt, dass die neue API-Form zukünftige Funktionen wie Mid-Flight-Steering und asynchrone Tool-Aufrufe unterstützt. Diese Funktionen erfordern eine strukturierte Ereignis-Zeitleiste. Wenn Ihr Client die neue Zeitleiste sofort wieder in einen einzigen String zusammenführt, sind Sie technisch kompatibel, aber architektonisch zurückgefallen. Behandeln Sie die Migration als Chance, Agent-Traces zu einem Erste-Klasse-Feature zu machen: Jeder Schritt erhält eine ID, einen Typ, Zeitstempel, Inhalt, Tool-Metadaten und eine Verknüpfung zur Interaktion. So debuggen Sie einen Agenten, der mitten in einem Job die Richtung ändert.

[43:00] Abschluss — was upgraden und was beobachten Die Upgrade-Priorität ist klar. Wenn Sie OpenClaw betreiben, testen Sie v2026.5.12 gegen Ihre Channels, Codex/OpenAI-Profile, Gateway-Clients, Browser-Befehle, Plugin-Installationen und Konfigurationsmutationen. Wenn Sie Hermes betreiben, testen Sie die neuen Installationspfade, Proxy, Browser-Latenz, Diagnosen und Datei-Mutations-Verifizierer in einem echten Repo und nicht in einem Spielprompt. Wenn Sie Claude Code Hintergrund-Agenten verwenden, aktualisieren und verifizieren Sie, dass /bg, claude agents, MCP-Konfigurationen, Einstellungen, Berechtigungsmodi, Fallback-Modelle und PowerShell-Verhalten Trennung, Aufwecken und Leerlauf überstehen.

Für Plattform-Builder ist Gemini Enterprise Agent Platform's Revisionen und Traffic-Splitting das Produktionsmuster zum Kopieren: Agenten brauchen Canaries, Rollback, revisionsbewusste Observability und kostenbewusste Rollout-Gates. Für API-Builder ist die Interactions-Migration eine Erinnerung, dass Agent-APIs zu Ereignis-Zeitleisten werden. Speichern Sie die Schritte. Behalten Sie die Typ-Metadaten. Bauen Sie den Parser jetzt, bevor das Entfernungsdatum eine Schema-Bereinigung zu einem Ausfall macht.

🎙 Never miss an episode — subscribe now

🎙 Subscribe to AgentStack Daily