
Hermes Agent v0.16.0 Desktop App, Codex 0.137 Multi-Agent v2, Claude Code Fallback Models, and Gemma 4 12B on the Local Stack
Hermes Agent v0.16.0 — "The Surface Release" — ships a real native desktop app with OAuth remote connect, drag-and-drop file input, and a browser-based admin panel. Codex 0.137 adds multi-agent v2 runtime choice persistence and parallel web search. Claude Code 2.1.166/2.1.167 introduces fallback model chains and glob tool-name deny rules. Gemma 4 12B is Google's latest open-weight 12B model that runs locally on a laptop with 16GB VRAM. The project radar covers the A2A protocol hitting v1.0, Kimi Code CLI as a TypeScript-native terminal coding agent, and the awesome-ai-agents-2026 curated resource list. Show notes: https://tobyonfitnesstech.com/de/podcasts/episode-65/
🎧 Listen to EpisodeEpisode 65 — 6. Juni 2026
[00:00] Episode-Hook
Hermes Agent v0.16.0 (v2026.6.5) bringt am 6. Juni 2026 „The Surface Release" heraus — eine native plattformübergreifende Desktop-App mit OAuth-Remote-Verbindung, Drag-and-Drop-Dateieingabe und einem vollständigen browserbasierten Web-Admin-Panel, alles ausgeliefert über 874 Commits und 542 zusammengeführte PRs seit v0.15.2. OpenAI Codex rust-v0.137.0 fügt Multi-Agent-v2-Laufzeitauswahl-Persistenz pro Thread, parallele eigenständige Websuche und Unternehmenskreditlimit-Steuerungen hinzu. Claude Code 2.1.166 führt konfigurierbare Fallback-Modellketten mit bis zu drei Modellen und Glob-Tool-Namen-Deny-Regeln ein, gefolgt von 2.1.167 als Bugfix-Polierelease. Gemma 4 12B ist Googles Open-Weight-Release vom 3. Juni, das ein 12-Milliarden-Parameter-Encoder-freies multimodales Modell im 16-GB-VRAM-Sweetspot für lokale agentische Workflows bringt. Das Projektradar deckt A2A Protocol v1.0 als formale Agenten-Interoperabilitätsschicht, Kimi Code CLI als typskript-nativen Terminal-Coding-Agenten und awesome-ai-agents-2026 als kuratierten Ressourcenindex ab.
[02:00] Hermes Agent v0.16.0 — native Desktop-App, OAuth-Remote-Verbindung und Web-Admin-Panel
Hermes Agent v0.16.0 ist das Release, das ändert, wie Hermes den Entwickler trifft. Die Schlagzeile ist eine echte native Electron-Desktop-Anwendung — kein Terminal-Wrapper, kein Web-Tab — die sich wie jede andere macOS-, Linux- oder Windows-App installiert und sich selbst an Ort und Stelle von innerhalb der App aktualisiert. Das Desktop-GUI bietet ein ordentliches Chat-Fenster mit Streaming, eine Sitzungsliste, die du archivieren und durchsuchen kannst, Drag-and-Drop-Dateien überall im Chat-Bereich, Zwischenablage-Bild-Einfügen, eine Cmd+K-Befehlspalette und einen Modell-Picker direkt in der Statusleiste. Wenn du technisch nicht versierten Teamkollegen immer sagst „es ist ein CLI-Agent" und ihre Augen glasig werden, kannst du ihnen jetzt einfach einen Installer schicken.
Die Desktop-App muss Hermes nicht lokal ausführen. Richte sie auf ein Remote-Hermes-Gateway — dein Homelab, eine gehostete Box, den Server eines Teamkollegen — und es verbindet sich über ein sicheres WebSocket und authentifiziert sich mit OAuth oder Benutzername/Passwort. Kein Herumfummeln mit --insecure-Flags oder manuell kopierten Sitzungstokens. Jedes Profil kann auf seinen eigenen Remote-Host zielen, und du kannst gleichzeitige Sitzungen über mehrere Profile hinweg ausführen. Das ist die Remote-Connect-Geschichte, auf die Enterprise- und Team-Hermes-Deployments gewartet haben.
Das Web-Dashboard hat ein vollständiges browserbasiertes Administrationspanel bekommen. Du erhältst MCP-Katalogverwaltung, Messaging-Kanal-Konfiguration, Credential-Speicherung, Webhook-Verwaltung, Speicherkonfiguration und steckbare OIDC- oder Benutzername-Passwort-Anmeldung — alles aus einem Browser, ohne die CLI zu berühren. Die Ersteinrichtung hat jetzt einen „Quick Setup via Nous Portal"-Pfad, der dich von der Installation zur ersten Nachricht in Sekunden bringt, was für das Onboarding neuer Benutzer oder die Evaluierung von Hermes in einer frischen Umgebung wichtig ist.
Der Standard-Skill-Satz wurde auf das reduziert, was du wirklich brauchst. NVIDIA/skills wurde in die vertrauenswürdigen Skills Hub-Taps aufgenommen. Der Modell-Picker ist jetzt überall fuzzy-durchsuchbar — Desktop, Web, TUI und CLI — was trivial klingt, bis du eine lange Liste von Modellen hast und keine Suche. /undo lässt dich endlich die letzten N Runden zurücknehmen, was die Lebensqualitäts-Funktion ist, die Benutzer seit dem ersten Release angefordert haben.
Unter der Haube kommen zwei P0- und 62 P1-Bug-Schließungen mit. Die Sicherheitsrunde ist einzeln erwähnenswert: CVE-2026-48710 pinnt die Starlette-Abhängigkeit an eine feste Version, SSRF-Off-Loop-Hardening schließt eine Klasse von serverseitigen Request-Forgery-Vektoren in Plugin- und Provider-Request-Pfaden, und Subprocess-Credential-Stripping stellt sicher, dass Credentials nicht in Child-Process-Umgebungen durchsickern.
Praktische Upgrade-Liste: Lade die Desktop-App für dein OS herunter und installiere sie; teste die OAuth-Anmeldung gegen ein Remote-Gateway, wenn du eines hast; erkunde das Web-Admin-Panel, um MCP-Server, Kanäle und Credentials zu prüfen; führe Quick Setup via Nous Portal bei einer frischen Installation durch, um die neue First-Run-Erfahrung zu vergleichen; und verifiziere, dass /undo für die letzten N Runden in deiner Sitzung funktioniert.
[16:00] Codex rust-v0.137.0 — Multi-Agent v2, parallele Websuche und Enterprise-Steuerungen
Codex rust-v0.137.0 wurde am 4. Juni 2026 als neuester stabiler CLI-Tag veröffentlicht, zwei Releases nach EP063s rust-v0.135.0-Basislinie. Die architektonisch signifikanteste Änderung ist Multi-Agent v2 mit Laufzeitauswahl-Persistenz: Jeder erzeugte Thread trägt jetzt seine eigene Laufzeitauswahl weiter, und erzeugte Agenten erhalten sauberere Follow-up- und Metadaten-Standards. Das bedeutet, wenn eine übergeordnete Codex-Sitzung einen untergeordneten Agenten erzeugt, verliert das Kind nicht seinen Platz, wenn die übergeordnete Sitzung übergibt — die Laufzeitauswahl bleibt beim Thread, nicht nur beim übergeordneten Prozess. Für Multi-Agent-Orchestrierungs-Workflows ist das der Unterschied zwischen einem Agenten, der über einen Übergabe hinweg zusammenhält, und einem, der stillschweigend Kontext verliert.
F13-F24-Keybinding-Unterstützung in der TUI und Einfügen in durchsuchbaren Menüs verbessern das Terminal-Erlebnis für Power-User, die erweiterte Tastaturlayouts verwenden. Enterprise- und Admin-Flows zeigen jetzt monatliche Kreditlimits und können cloud-verwaltete Config-Bundles einschließlich EDU-Arbeitsbereiche anwenden — die Kreditlimit-Sichtbarkeit schließt eine Lücke, in der Operator den Spend nicht sehen konnten, bis die Rechnung kam.
Plugin-Workflows haben maschinenlesbare codex plugin list --json-Ausgabe und zwischengespeicherte Remote-Katalog-Vorschläge erhalten. Die maschinenlesbare Ausgabe bedeutet, dass du Plugin-Listen in Skripte, CI-Pipelines oder Fleet-Management-Tools weiterleiten kannst, ohne menschlich lesbaren Text zu parsen. Zwischengespeicherte Remote-Katalog-Vorschläge beschleunigen den Plugin-Discovery-Flow, indem wiederholte Netzwerkaufrufe vermieden werden.
Gehostete Web- und Bild-Tools sind in mehr Code-Mode-Flows verfügbar, wobei eigenständige Websuchen jetzt parallel ausgeführt werden können. Parallele eigenständige Websuche bedeutet, dass Codex mehrere Suchanfragen gleichzeitig abfeuern und Ergebnisse synthetisieren kann, anstatt sie sequenziell auszuführen — ein echter Latenzgewinn für rechercheintensive Workflows. Berechtigungsanfragen und -genehmigungen tragen jetzt Umgebungsidentität, was eine Lücke schließt, in der eine Berechtigung, die in einem Kontext erteilt wurde, fälschlicherweise über Kontextgrenzen hinweg gelten konnte. Plattform-Zuverlässigkeit verbessert für macOS-App-Starts und Windows-SQLite-Startup, Thread-Resume und Sandbox-Setup-Refreshes.
Praktische Upgrade-Liste: Upgrade Codex auf rust-v0.137.0; teste eine Multi-Agent-Sitzung, um zu verifizieren, dass die Laufzeitauswahl korrekt über Spawn und Resume hinweg persistiert; führe codex plugin list --json aus, um das maschinenlesbare Ausgabeformat zu sehen; teste parallele Websuche in einem Code-Mode-Flow; prüfe die neue monatliche Kreditlimit-Anzeige in Enterprise-/Admin-Flows.
[26:00] Claude Code 2.1.166/2.1.167 — Fallback-Modellketten und Glob-Tool-Namen-Deny-Regeln
Claudes Code npm latest ist jetzt 2.1.166 und 2.1.167, nach 2.1.165. Version 2.1.166 ist das Feature-Release mit zwei für Operatoren sichtbaren Ergänzungen. Die Schlagzeile ist eine neue fallbackModel-Einstellung, die es dir ermöglicht, bis zu drei Fallback-Modelle zu konfigurieren, die in Reihenfolge ausprobiert werden, wenn das primäre Modell überlastet oder nicht verfügbar ist. Das --fallback-model-Flag gilt jetzt auch für interaktive Sitzungen, nicht nur für Hintergrundsitzungen — das bedeutet, interaktive Terminal-Sitzungen können auch automatisch auf das nächste Modell in der Kette übergehen, wenn das primäre saturiert. Das ändert, wie du mit Modell-Nichtverfügbarkeit umgehst: Anstatt dass ein einzelner Prompt fehlschlägt, wenn eine API am Limit ist, versucht Claude Code automatisch das nächste von dir konfigurierte Modell.
Glob-Muster-Unterstützung in Deny-Rule-Tool-Namen-Positionen ist das zweite Feature. Die Verwendung von „*" lehnt alle Tools ab. Allow-Regeln lehnen Nicht-MCP-Globs ab, und unbekannte Tool-Namen in Deny-Regeln warnen jetzt beim Startup anstatt stillschweigend malformed Regeln zu akzeptieren. Die Startup-Warnung für unbekannte Tool-Namen ist die operator-freundliche Verbesserung: Du weißt jetzt beim Startup, ob eine Deny-Regel falsch konfiguriert ist, anstatt es zu entdecken, wenn die Regel nicht ausgelöst wird.
Version 2.1.167 ist reine Bug-Fixes und Zuverlässigkeitsverbesserungen — die Hygiene-Welle, die den Release-Zug sauber hält zwischen Feature-Releases.
Praktische Upgrade-Liste: Fügen Sie Ihrer Claude Code-Konfiguration fallbackModel mit zwei oder drei Alternativen in der Reihenfolge Ihrer Präferenz hinzu; testen Sie die Kette, indem Sie vorübergehend Ihr primäres Modell nicht verfügbar machen und überprüfen, ob der Fallback korrekt ausgelöst wird; verwenden Sie "*" in einer Verweigerungsregel, um den vollständigen Tool-Sperrschutz zu testen; überprüfen Sie, ob unbekannte Tool-Namen in Verweigerungsregeln Startwarnungen erzeugen; und upgraden Sie auf 2.1.167 für die neuesten Fehlerkorrekturen.
[34:00] Gemma 4 12B — Encoder-freies multimodales Modell im 16GB VRAM-Sweetspot
Google hat Gemma 4 12B am 3. Juni 2026 als Apache 2.0 Open-Weight-Checkpoint mit einem 256K-Kontextfenster veröffentlicht, das darauf ausgelegt ist, agentische multimodale Intelligenz direkt auf Laptops für lokale Workflows zu bringen. Die wichtigste architektonische Entscheidung ist der encoder-freie multimodale Input: Vision und Audio fließen direkt in das LLM-Backbone, anstatt durch einen separaten multimodalen Encoder. Dies ist dasselbe architektonische Muster, das große multimodale Modelle in kleineren Parameterzahlen ermöglicht — durch das Entfernen des Encoder-Overheads kann das 12B-Modell Bild- und Audio-Inputs verarbeiten, ohne eine separate Verarbeitungsstufe, die Parameter und Latenz hinzufügt.
Die Benchmark-Leistung wird als nah an Googles 26B-Modell bei fortgeschrittenen Reasoning-Aufgaben beschrieben, was ein 12B-Modell mit Modellen doppelter Größe bei den Benchmarks konkurrieren lassen würde, die für agentische Workflows relevant sind. Die agentische Workflow-Positionierung ist explizit: Autonome Datenverarbeitung, visuelle Einblicke und Webseiten-Erstellung werden als Zielanwendungsfälle aufgeführt. Google AI Edge bietet den Weg für lokale Bereitstellung auf Laptop-Hardware mit 16GB und 32GB VRAM.
Für den Agent-Stack ist Gemma 4 12B das realistischste Open-Weight-12B-Modell für lokale Coding-Agent-Anwendungen auf Consumer-Hardware. Es verändert das, was lokale First-Agent-Workflows aussehen, wenn das Modell und die Gewichte auf Ihrer Maschine bleiben — keine API-Latenz, keine Daten, die Ihre Umgebung verlassen, keine Kosten pro Token. Das 256K-Kontextfenster bedeutet, dass es große Codebasen oder lange Dokumente ohne das Kontext-Chunking verarbeiten kann, das Modelle mit kleinerem Fenster erfordern.
Praktische Upgrade-Liste: Laden Sie den Gemma 4 12B-Checkpoint von Hugging Face herunter und führen Sie ihn über LM Studio oder Ollama auf einem Laptop mit 16GB VRAM aus; vergleichen Sie die Ausgabe einer Coding-Aufgabe mit Ihrem aktuellen lokalen Modell; testen Sie den 256K-Kontext bei einer langen Codebasis oder einem Dokumentverständnis-Task; und verwenden Sie Google AI Edge für den verwalteten lokalen Bereitstellungspfad, wenn Sie eine Ein-Befehl-Installation bevorzugen.
[42:00] Kimi Code CLI — TypeScript-nativer Terminal-Coding-Agent mit nativer MCP-Unterstützung
Moonshot AI hat Kimi Code CLI am 5. Juni 2026 als MIT-lizenzierten Open-Source-Terminal-AI-Coding-Agent veröffentlicht, der in TypeScript geschrieben wurde. Das Projekt ist der Nachfolger des älteren kimi-cli und wird über npm oder ein einzelnes Installationsskript verteilt, das keine vorinstallierte Node.js benötigt. Auf macOS oder Linux: curl -fsSL https://code.kimi.com/kimi-code/install.sh | bash. Auf Windows: irm https://code.kimi.com/kimi-code/install.ps1 | iex. Die globale npm-Installation erfordert Node.js 24.15.0 oder höher.
Kimi Code CLI liest und bearbeitet Code, führt Shell-Befehle aus, durchsucht Dateien, ruft Webseiten ab und wählt seinen nächsten Schritt basierend auf Feedback — die Standard-Coding-Agent-Schleife. Out of the box funktioniert es mit Moonshot AIs Kimi-Modellen und kann für die Verwendung mit anderen kompatiblen Anbietern konfiguriert werden. Das feedback-gesteuerte Ausführungsmodell führt schreibgeschützte Operationen automatisch aus und fragt nach Bestätigung bei Dateibearbeitungen oder Shell-Befehlen — ein Genehmigungsfluss, der riskante Aktionen unter der Kontrolle des Entwicklers hält.
Bemerkenswerte Funktionen umfassen eine schnelle TUI, die in Millisekunden bereit ist, Video-Input zum Ablegen von Bildschirmaufnahmen im Chat, KI-natives MCP-Setup über /mcp-config, Subagents für parallele Arbeit (Coder-, Explore- und Plan-Subagents in isolierten Kontexten) und Lifecycle-Hooks zum Steuern von Tool-Aufrufen, Auditieren von Entscheidungen oder Auslösen von Benachrichtigungen. Die MCP-Konfiguration über /mcp-config ist die Funktion, die es mit dem Agent-Stack verbindet: Sie können MCP-Server von innerhalb der CLI hinzufügen und authentifizieren, ohne externe Konfigurationsdateien.
Version 0.11.0 veröffentlicht am 5. Juni 2026. Das Projekt hat 1.902 GitHub-Stars und aktive Entwicklung.
Praktische Upgrade-Liste: Installieren Sie Kimi Code CLI und verifizieren Sie mit kimi --version; verbinden Sie es mit Ihrem Kimi API-Key oder Moonshot AI OAuth; testen Sie eine MCP-Server-Konfiguration über /mcp-config; führen Sie einen Subagent parallel gegen eine Codebasis-Aufgabe aus; und vergleichen Sie die Ausführungsqualität mit Ihrem aktuellen CLI-Agent.
[50:00] A2A Protocol v1.0 — die formale Agent-Interoperabilitätsschicht
Das Agent-to-Agent-Protokoll erreichte v1.0 im Jahr 2026 unter der Linux Foundation und etablierte eine formale Spezifikation dafür, wie Agents aus verschiedenen Frameworks einander entdecken, Kommunikationskanäle aufbauen und Aufgaben delegieren. Das Protokoll definiert „Agent Cards" — JSON-Capability-Manifeste — für die Agent-Discovery und eine aufgabenbasierte State Machine für langlebige Interaktionen unter Verwendung von JSON-RPC 2.0. Ursprünglich von Google gestartet, wird A2A jetzt von der Linux Foundation zusammen mit MCP regiert.
Der MCP-versus-A2A-Unterschied ist das wichtigste mentale Modell: MCP standardisiert, wie ein Agent sich mit externen Tools, Datenbanken und Datenquellen verbindet — es geht darum, was ein Agent tun kann. A2A standardisiert, wie Agents miteinander kommunizieren — es geht darum, wie Agents zusammenarbeiten. MCP ist bereits weit verbreitet im Agent-Stack. A2A v1.0 ist das komplementäre Protokoll, das Cross-Framework-Agent-Übergaben ohne benutzerdefinierte Integrationscode für jedes Paar ermöglichen wird.
Das a2aproject/A2A-Repository hat 24.153 Stars und aktive Entwicklung Stand 6. Juni 2026. Für den Agent-Stack ist A2A v1.0 die Interoperabilitätsschicht, die es einer Claude Code-Session ermöglichen wird, an einen Hermes-Agenten zu delegieren, oder einem OpenClaw-Agenten, den Übergabe an einen Codex-Thread vorzunehmen — ohne eine benutzerdefinierte Integration für jedes Paar zu bauen. Das Protokoll hat ausreichende Reife erreicht, sodass Builder sich dessen bewusst sein sollten, wenn sie Multi-Agent-Workflows entwerfen.
Praktische Upgrade-Liste: Lesen Sie die A2A v1.0-Spezifikation im a2aproject/A2A-GitHub-Repo, um die Agent-Card-Struktur und die Semantik der Task-State-Machine zu verstehen; wenn Sie einen Multi-Agent-Workflow erstellen, designen Sie die Agent-Übergabepunkte mit A2A-Agent-Cards im Hinterkopf; und testen Sie eine Cross-Framework-Agent-Delegation, wenn Sie zwei verschiedene Agent-Runtimes verfügbar haben.
[58:00] Praktische Warteschlange
Für Hermes Agent: Laden Sie den Desktop-App-Installer herunter und führen Sie ihn gegen Ihr bestehendes Gateway aus; testen Sie OAuth Remote Connect, wenn Sie einen gehosteten Hermes haben; erkunden Sie das Web-Admin-Panel, um MCP-Server und Anmeldedaten zu auditieren. Für Codex: Upgraden Sie auf rust-v0.137.0 und testen Sie die Multi-Agent-v2-Laufzeitwahlausdauer über einen Spawn- und Resume-Zyklus. Für Claude Code: Fügen Sie fallbackModel zu Ihrer Konfiguration mit zwei oder drei Alternativen hinzu; testen Sie die Glob-"*"-Verweigerungsregel für vollständigen Tool-Sperrschutz. Für Gemma 4 12B: Laden Sie den Checkpoint von Hugging Face herunter und führen Sie ihn auf einer 16GB-VRAM-Maschine aus; vergleichen Sie eine Coding-Aufgabe mit Ihrem aktuellen lokalen Modell. Für Kimi Code CLI: Installieren Sie es und verbinden Sie einen MCP-Server über /mcp-config. Für A2A: Lesen Sie die v1.0-Spezifikation und identifizieren Sie einen Multi-Agent-Übergabepunkt in Ihrem Workflow, wo A2A-Agent-Cards eine benutzerdefinierte Integration ersetzen könnten.