OpenClaw v2026.4.26 und der KI-Inferenz-Stack — Episode 42 cover art
Episode 42·28. April 2026·42:17

OpenClaw v2026.4.26 und der KI-Inferenz-Stack

EP042 beginnt mit OpenClaw v2026.4.26: Browser-Echtzeit-Transportverträge, eingeschränkte Google Live-Token, Gateway-Relay-Sitzungen, gebündelte Cerebras-Provider-Unterstützung, manifest-basierte Provider-Routing-Metadaten, asymmetrische Embedding-Eingabetypen, Abrufpräfixe für lokale Embedding-Modelle, sicherere Plugin-Mutation, Matrix-Verschlüsselungs-Setup, Transkriptkompression und Migrationstools. Dann gehen wir tiefer als in früheren Episoden auf die Inferenzinfrastruktur ein: Groqs LPU-gestützte gehostete Inferenz, Cerebras waf Show notes: https://tobyonfitnesstech.com/de/podcasts/episode-42/

🎧 Listen to Episode

OPENCLAW DAILY — EPISODE 042 — 28. April 2026

[00:00] INTRO / HOOK OpenClaw v2026.4.26 leitet die Episode ein, aber dies ist nicht nur ein Release-Überblick. Die Arbeit am Cerebras-Provider, manifest-besitzende Routing-Metadaten, Echtzeit-Sprach-Transports, Memory-Search-Steuerungen und Local-Model-Fixes des Releases sind der Ausgangspunkt für eine tiefere technische Überprüfung des Inference-Stacks.

[02:00] STORY 1 — OpenClaw v2026.4.26 macht Realtime, Provider-Routing, Memory, Plugins, Security und Migration operationabler Fokus auf konkrete Runtime-Oberflächen. Realtime-Voice erhält einen generischen Browser-Transportvertrag, Google Live-Browser-Talk-Sessions nutzen eingeschränkte ephemeral Tokens, und Backend-only Realtime-Provider können einen Gateway-Relay durchlaufen, anstatt langlebige Provider-Credentials in den Browser zu leaken. Provider-Routing wird expliziter: Cerebras wird als Provider-Plugin gebündelt, Modellkataloge und Endpoint-Metadaten bewegen sich in Richtung Manifests, und OpenAI-kompatible Request-Family-Hints leben näher beim Provider, der sie besitzt. Memory-Search erhält asymmetrische Embedding-Kontrollen, sodass Query- und Dokument-Inputs unterschiedlich behandelt werden können, plus Retrieval-Prefixes für lokale Embedding-Modelle wie nomic-embed-text, qwen3-embedding und mxbai-embed-large. Plugin-Betrieb wird sicherer durch transaktionale Mutations-Helper, Restart-Follow-up-Policy, revisionsbasierte Cache-Invalidierung, geschichtete Dependency-Roots, profilbewusste Install-Ziele, sichereres Symlink-Handling und Install-Scans, die Test-Dateien überspringen, ohne Runtime-Entrypoints zu verpassen. Security- und Admin-Oberflächen umfassen Matrix-Verschlüsselungs-Setup, redacted Raw-Config-Diffs, sichereres Token-Rotation-Verhalten und striktere Subagent-Allowlist-Durchsetzung. Migrations- und Resilienz-Arbeit umfasst Transcript-Compaction-Trigger, Claude- und Hermes-Import-Tooling, Update-Verifizierung, Browser-Kontroll-Fixes, Docker-CA-Zertifikate, Proxy-Verhalten und Gateway-Hardening. Das Audio sollte erklären, warum dies Produktions-Runtime-Änderungen sind, anstatt isolierter Features: Voice braucht Browser/Backend-Trust-Boundaries, Provider-Sprawl braucht Metadaten statt hardcodierter Routing-Tabellen, Retrieval-Qualität hängt von modellspezifischen Embedding-Konventionen ab, Plugins brauchen sichere Config-Mutation und vorhersehbare Dependency-Roots, und Migration-Tooling ist wichtig, wenn Benutzer Einstellungen, Memory, Provider, Skills und Credentials aus anderen Assistant-Umgebungen mitbringen. Behandeln Sie dies als technisches Setup für den Provider-Deep-Dive, der folgt, mit expliziten Beispielen statt nur Zusammenfassungen.

[14:00] STORY 2 — Technischer Deep Dive und Review: Groq, Cerebras, LM Studio, Ollama, OpenRouter, LiteLLM und lokale Gateways Erklären Sie zuerst die Schichten: Modell, Runtime, Provider, Router und Gateway. Dann reviewen Sie Groq als LPU-backed Hosted Inference, Cerebras als Wafer-Scale Hosted Inference, LM Studio als lokale Desktop/Modell-Manager/SDK/OpenAI-kompatiblen Server, Ollama als lokalen Runner plus Cloud-Subscription-Zugang, OpenRouter als Modell-Marktplatz und Routing-Layer, LiteLLM als selbst-hostbaren Provider-Gateway und direkte lokale oder gehostete Endpoints als optimierte Single-Purpose-Pfade. Inkludieren Sie redaktionelle Kosten-pro-Wert-Bewertungen und wofür jedes am besten ist.

[42:00] STORY 3 — OpenAI Privacy Filter macht PII-Redaktion zu einem lokalen, abstimmbaren Modell-Pass Erklären Sie lokale Token-Klassifizierung, Long-Context-Span-Detection, Constrained Decoding, kategorienspezifische Redaktion und Deployment vor Prompt-Assembly, Retrieval-Indexing, Log-Export, Support-Workflows und Dokument-Sharing.

[48:00] STORY 4 — Google Cloud AI Zones macht Accelerator-Lokalität zu einer First-Class Deployment-Einschränkung Erklären Sie accelerator-intensive Zonen, Parent-Zone-Beziehungen, Quota/Zugang, Storage-Lokalität, regionale Durable Buckets, zonale Cache- und Scratch-Layer, Rapid Cache, GKE-Scheduling und warum AI-Placement jetzt mit dem Datenpfad designed werden muss.

[55:00] OUTRO Fassen Sie die technische Erkenntnis zusammen: Die Inference-Welt ist nicht ein Model-Dropdown. Es ist Custom-Hardware, lokale Runtimes, Marktplätze, Gateways, Privacy-Filter und Accelerator-Zonen. Die richtige Wahl hängt von Latenz, Kosten-Vorhersagbarkeit, Modellwahl, Privacy und betrieblicher Kontrolle ab.

🎙 Never miss an episode — subscribe now

🎙 Subscribe to AgentStack Daily