Episode 78: Die Rückkehr von Claude Fable 5: US-Beschränkung

Episode 078 — 1. Juli 2026

[00:00] Episode-Einstieg

Claude Fable 5 ist wieder allgemein verfügbar — Washington hat die Beschränkungen für Anthropics Mythos- und Fable-Modelle am 30. Juni aufgehoben, und der Eintrag anthropic/claude-fable-5 auf OpenRouter ist live mit einem Kontextfenster von 1.000.000 Token. Bei den Releases in diesem Zyklus wurden sowohl OpenClaw v2026.6.11 als auch OpenAI Codex rust-v0.142.5 ausgeliefert: OpenClaw mit einer Verbesserung der Zuverlässigkeit bei der Kanalzustellung und Sitzungswiederherstellung, Codex mit einer Datenhygiene-Korrektur für Trace-Logs. Anthropics Claude Sonnet 5 tauchte ebenfalls auf OpenRouter auf, mit einem 1M-Token-Kontextfenster und einem vierstufigen Reasoning-Effort-Regler, und Google listete Nano Banana 2 Lite — gebrandet als Gemini 3.1 Flash Lite Image — als schnellstes und kosteneffizientestes Gemini-Bildmodell. Auf der Forschungsseite trendingt das Orca-Paper auf HuggingFace Daily Papers mit 161 Upvotes für seinen Vorschlag eines einheitlichen Weltlatenzraums, der durch multimodale Vorhersage des nächsten Zustands aufgebaut wird, und InternScience's Agents-A1 beansprucht MoE-Leistung der Billionen-Parameter-Klasse von einem 35-Milliarden-Parameter-Misch von Experten-Modell.

[02:00] Agent Stack Release readout: OpenClaw v2026.6.11; OpenAI Codex rust-v0.142.5

Zwei stabile Releases wurden in diesem Zyklus ausgeliefert. OpenClaw v2026.6.11 ist ein Zuverlässigkeits-Release: Das Team beschreibt es als direkte Reaktion auf Feedback über die rauen Kanten, die das Harness weniger zuverlässig erscheinen lassen, mit Korrekturen für falsch zugestellte Antworten, steckengebliebene Sendungen, abgebrochene Wiederverbindungen, Modell-Setup-Fehler und sicherere Admin-Standards. Der größte Arbeitsblock betrifft die Zuverlässigkeit der Kanalzustellung, mit Zustellungs- und Wiederverbindungskorrekturen für Telegram, WhatsApp, Matrix, Google Chat, iMessage, Feishu, Mattermost, WebChat, die Control-UI und die Terminal-UI. Die konkreten Mechanismen sind hier wichtig: Neuere Google Chat-Direktnachrichten werden nicht mehr wie Gruppenkonversationen behandelt und erreichen den richtigen Eins-zu-Eins-Chat; Telegram-Webhook-Nutzer empfangen weiterhin DMs und Gruppennachrichten durch Kanalneustarts, Konfigurations-Neuladungen und Wiederherstellungszyklen ohne temporäre Ausfälle; Matrix-Ende-zu-Ende-verschlüsselte Gateways bleiben während langer Nutzung online, anstatt nach und nach Speicher zu verbrauchen, bis ein Absturz Kanäle und laufende Arbeit beendet; und Heartbeat-Checks bei modellbasierten Modellen zeigen jetzt die beabsichtigte Antwort des Assistants an, anstatt interne Reasoning-Prozesse an Telegram und WhatsApp weiterzugeben. Auf der Agent-Runtime-Seite senkt das Release das standardmäßige Komprimierungs-Timeout auf 180 Sekunden, während explizite Konfiguration respektiert wird, erhält Codex den Eigentum an der Kontext-Engine-Komprimierung und bewahrt den Provider-Failure-Terminal-Lebenszyklusstatus korrekt. OpenAI Codex rust-v0.142.5 ist ein gezielter Patch mit echtem operativem Gewicht: Er verhindert, dass vollständige Responses-WebSocket-Anfrage-Payloads in Trace-Logs geschrieben werden, eine Datenhygiene-Korrektur, die für jeden wichtig ist, der Codex-Traces in gemeinsame Observability-Infrastruktur einspeist, bewusst auf die Release/0.142-Linie zurückportiert. Für Entwickler ist die praktische Frage, ob einer der Releases einen Standardwert ändert, von dem Sie derzeit abhängen: Vergleichen Sie das Changelog mit Ihrer gepinnten Version, spielen Sie eine repräsentative Agent-Sitzung erneut ab und beobachten Sie das Wiederverbindungsverhalten, bevor Sie den neuen Standard in der Produktion übernehmen.

[03:05] Claude Fable 5 ist zurück: Washington hebt die Sperre für Anthropics Frontier-Tier auf

Die Schlagzeile des Tages: Claude Fable 5 ist wieder allgemein verfügbar. Die US-Regierung hat ihre Beschränkungen für Anthropics Mythos- und Fable-Modelle am 30. Juni aufgehoben und damit das Exportregime beendet, das Anthropics Frontier-Tier wochenlang gesperrt hatte. Fable 5 ist das allgemein verfügbare Gesicht der Mythos-Klasse-Tier — ein Tier, das in Anthropics Produktpalette über Opus angesiedelt ist. Es teilt dasselbe zugrundeliegende Modell wie Claude Mythos 5; der Unterschied liegt in der Deployment-Oberfläche. Fable wird mit zusätzlichen Sicherheitsmaßnahmen für Dual-Use-Fähigkeiten ausgeliefert, während Mythos 5 ohne diese Maßnahmen nur an zugelassene Organisationen bereitgestellt wird. Der OpenRouter-Eintrag unter anthropic/claude-fable-5, erstmals am 9. Juni veröffentlicht, zeigt die konkreten Fähigkeiten: ein Kontextfenster von 1.000.000 Token, Text-, Bild- und Dateieingaben mit Textausgabe, Reasoning-Unterstützung und Positionierung für autonome Wissensarbeit und Coding. Die Harness-seitige Unterstützung ist bereits vorhanden — OpenClaw hat Mitte Juni die Claude Fable 5 Provider-Unterstützung integriert, sodass das Routing einer Agent-Sitzung zum Modell ein Modell-String-Wechsel ist, kein Integrationsprojekt. Für Entwickler ist der unmittelbare nächste Schritt ein Bake-off: Führen Sie eine repräsentative Coding- oder langfristige Agent-Aufgabe über anthropic/claude-fable-5 gegen einen aktuellen Opus-Klassen-Standard aus und messen Sie, wo die Mythos-Klasse-Behauptungen standhalten. Beobachten Sie als nächstes: Preise und Rate-Limits, während sich die Verfügbarkeit stabilisiert, ob die Dual-Use-Schutzmaßnahmen bei sicherheitsrelevanten Workloads beobachtbar sind, und wie schnell sich das Richtlinienumfeld einpendelt — dieselbe Verwaltung, die diese Beschränkungen aufgehoben hat, hat schon früher die Richtung geändert.

[04:10] Claude Sonnet 5 landet auf OpenRouter mit 1M Kontext

Anthropic hat Claude Sonnet 5 als neuen Modelleintrag auf OpenRouter aufgeschaltet, beworben als das bisher leistungsfähigste Sonnet-Klassen-Modell für Coding, Agents und professionelle Arbeit. Das Modell wird von Anthropic selbst bereitgestellt und ist unter der Kennung anthropic/claude-sonnet-5 registriert. Zwei Details stechen für Entwickler hervor. Erstens beträgt das Kontextfenster 1.000.000 Token, was Sonnet 5 in dieselbe Langkontext-Tier-Klasse wie aktuelle Frontier-Releases bringt und groß genug ist, um erhebliche Repositories oder Multi-Session-Agent-Traces in einem einzigen Aufruf zu halten. Zweitens wird adaptives Denken als auswählbarer Parameter mit vier Reasoning-Aufwandsstufen — niedrig, mittel, hoch und max —暴露iert, sodass Aufrufer Compute pro Anfrage hoch- oder herunterregeln können, anstatt sich auf einen festen Modus festzulegen. Diese Kombination rahmt einen Sonnet-Klassen-Endpunkt als abstimmbare Kosten-und-Qualitäts-Oberfläche für Agent-Schleifen um. Beobachten Sie als nächstes: wie OpenRouter den Effort-Parameter in seiner einheitlichen API暴露iert, und ob das Anthropic-native SDK denselben vierstufigen Regler spiegelt.

[05:08] Google liefert Nano Banana 2 Lite Bildmodell auf OpenRouter

Google hat Nano Banana 2 Lite gerade auf OpenRouter als google/gemini-3.1-flash-lite-image veröffentlicht und dem öffentlichen Modellkatalog einen Flash-Lite-Bild-Endpunkt hinzugefügt. Der Eintrag beschreibt ihn als Googles schnellstes, kosteneffizientestes Gemini-Bildmodell, ausgerichtet auf hochdynamische Entwickler-Pipelines und rasante visuelle Erkundung. Die Kontextlänge beträgt 65536 Token, ausreichend, um lange, strukturierte Prompts und negative Constraints aufzunehmen, ohne Mid-Call-Kürzungen. Der Mechanismus, auf den man sich konzentrieren sollte, ist die Flash-Lite-Tier selbst: Text-zu-Bild-Generierung optimiert für niedrige Latenz und hohes Anrufvolumen, wobei Google typischerweise Frontier-Fidelity gegen Durchsatz und Stückkosten tauscht. Für Entwickler ist der praktische Effekt ein Google-nativer Bildpfad, den Sie in Bulk-Asset-Pipelines, Varianten-Sweeps und Ideation-Schleifen ohne Pro-Tier-Preise pro Bild einsetzen können. Der OpenRouter-Eintrag signalisiert einen router-freundlichen Endpunkt, sodass bestehende Bild-Agent-Stacks mit einem Modell-String-Wechsel Provider wechseln können. Beobachten Sie, ob das 65536-Kontextfenster für Bildkonditionierung vollständig nutzbar oder begrenzt ist, und wie sich die Preisgestaltung unter anhaltender Produktionslast hält.

[06:06] Orca-Paper schlägt einheitlichen Weltlatenzraum durch Vorhersage des nächsten Zustands vor

Ein neues Paper namens Orca, das auf HuggingFace Daily Papers mit 161 Upvotes trendingt, schlägt einen einheitlichen Weltlatenzraum vor, der durch multimodale Modellierung der Vorhersage des nächsten Zustands aufgebaut wird. Die Arbeit, gehostet unter orca-wm.github.io und veröffentlicht als arXiv 2606.30534, rahmt Weltmodellierung neu: Anstatt ein separates Modell pro Domäne zu trainieren, komprimiert Orca die Weltdynamik in einen gemeinsamen Latenzraum und überträgt ihn auf Downstream-Aufgaben, wo die Autoren berichten, dass sie spezialisierte Baselines schlagen. Diese Allgemeinheit ist die herausragende Fähigkeit, und deshalb liest die Community sie. Der konkrete Mechanismus ist die multimodale Vorhersage des nächsten Zustands, dasselbe Pre-Training-Ziel, das aktuelle Agenten- und verkörperte KI-Arbeit antreibt, jetzt skaliert in einen einzelnen gemeinsamen Latenzraum anstatt domänenspezifische Köpfe. Für Entwickler ist das praktische Signal, dass allgemeines Weltmodell-Pre-Training zu einer glaubwürdigen Alternative zu aufgabenspezifischen Stacks wird, sodass Teams, die Agenten- oder verkörperte Pipelines planen, eine neue Architekturoption haben, die es wert ist, gegen ihre aktuellen reinen SFT-Ansätze bewertet zu werden. Beobachten Sie als nächstes: die Eval-Suite und ob der Latenzraum über die Benchmarks des Papers hinaus übertragen wird.

[07:04] Agents-A1: 35B MoE Agent erreicht Billionen-Parameter-Klasse-Leistung

Agents-A1, ein 35-Milliarden-Parameter-Misch-von-Experten-Agentenmodell von InternScience, beansprucht Leistung der Billionen-Parameter-Klasse ohne Billionen-Parameter-Kosten. Der Beitrag des Teams sind zwei Skalierungshebel und eine dreistufige Destillationspipeline, nicht die reine Parameterzahl.

Long-Horizon-Trajektorien-Skalierung erweitert die Multi-Turn-Aktionssequenzen, auf denen das Modell trainiert wird, und geht über Einzelschritt-Prompts hinaus in erweiterte Tool-Nutzungs-Traces. Heterogene Agentenfähigkeits-Skalierung mischt spezialisierte Fähigkeiten über Coding-, Tool-Nutzungs- und Retrieval-Domänen hinweg. Das Training läuft als überwachtes Fine-Tuning auf langen Agenten-Traces, dann pro Domäne Teacher-Modelle, die sich auf Aufgabenfamilien spezialisieren, dann Multi-Teacher-Destillation, die sie in einen einzigen 35B-Studenten fusioniert.

Für Entwickler, die kostenbewusste Pipelines betreiben, ist die Implikation klar: Frontier-Agentenleistung wird nicht mehr ausschließlich durch Parameterzahl eingeschränkt, da Destillationsrezepte, die spezialisierte Teacher absorbieren, über ihrer Gewichtsklasse mitspielen können. Beobachten Sie die Veröffentlichung der offenen Gewichte und die unabhängige Benchmark-Replikation; wenn die Long-Horizon-Gewinne außerhalb des Eval-Harness der Autoren Bestand haben, formt das Rezept neu, wie Teams Serving-Budgets dimensionieren und offene Gewichts-Studenten auswählen.

[08:02] OmniRoute macht einen Endpunkt zu 231 Modell-Providern

OmniRoute, ein Open-Source-AI-Gateway von Entwickler diegosouzapw, erreichte diese Woche GitHub Trending. Das Projekt exponiert einen einzelnen OpenAI-kompatiblen Endpunkt und verweist auf 231 Modell-Provider, etwa 50 mit kostenlosen Tiers, sodass ein Coding-Agent Claude, GPT oder Gemini erreichen kann, ohne provider-spezifische Client-Verdrahtung. Stellen Sie es vor Claude Code, Codex, Cursor, Cline oder Copilot und das Gateway übernimmt das Routing. Der bemerkenswerte Mechanismus ist ein gestaffelter Komprimierungsdurchgang — RTK plus Caveman-Modus — angewendet, bevor Prompts die Box verlassen, beansprucht, die Token-Nutzung je nach Workload um 15% bis 95% zu reduzieren. Eine intelligente Auto-Fallback-Schicht leitet fehlgeschlagene oder rate-limitierte Anfragen zum nächsten verfügbaren Provider um, wobei MCP- und A2A-Unterstützung Tool-Aufrufe und Agent-zu-Agent-Flüsse intakt halten. Für Entwickler bedeutet dies eine selbst gehostete Routing-Ebene, die Provider-Ausfälle und kostenlose Tier-Fluktuation übersteht. Beobachten Sie den Latenz-Overhead auf dem Komprimierungspfad und wie die Fallback-Priorität konfiguriert wird, wenn mehrere kostenlose Provider angeschlossen sind.

[09:00] BlockPilot wählt Block-Größen live für Diffusion Speculative Decoding

BlockPilot, ein Paper, das auf HuggingFace Daily Papers mit 64 Upvotes im Trend liegt, schlägt instanzadaptives Policy-Lernen für diffusionsbasierte spekulative Dekodierung vor. Die Arbeit stammt von der AMAP-ML-Gruppe und ist auf GitHub zusammen mit dem arXiv-Preprint quelloffen verfügbar. Der Kernansatz ist das Ersetzen einer festen Blockgröße — wie viele Token der Diffusions-Drafter pro Schritt erzeugt — durch eine kleine Policy, die die Prefilling-Repräsentationen des Prompts ausliest und eine blockgröße pro Anfrage dynamisch auswählt. Die Autoren berichten über eine signifikante Beschleunigung gegenüber statischen Blockgrößen-Zeitplänen bei minimalem Policy-Overhead, und die Upvote-Anzahl spiegelt wider, wie aktiv die Inference-Community das adaptive Drafting aufgreift. Für Entwickler bedeutet dies, dass die Blockgröße kein Bereitstellungszeit-Regler mehr ist, den man einmal einstellt; es ist eine gelernte, prompt-konditionierte Entscheidung, die in bestehende spekulativ-dekodierende Pipelines eingefügt werden könnte, ohne das Zielmodell neu zu trainieren. Das Nächste, worauf man achten sollte, ist, ob die veröffentlichte Policy auf Modellfamilien verallgemeinert oder nur innerhalb der Trainingsverteilung des Papers funktioniert.

[09:58] Generative Skill Composition Tackles LLM Agent Skill Bottleneck

Xinyu Zhao, Zhen Tan und Vaishnav Tadiparthi haben diesen Monat arXiv 2606.32025 veröffentlicht und rahmen die Skill-Komposition als zentralen Engpass ein, wenn Agent-Skill-Bibliotheken über Aufgaben und Domänen hinweg skalieren. Skills bündeln modulares prozedurales Wissen — Sandbox-Umgebungen, Test-Suite-Ausführung, Multi-Datei-Refactorings — und aktuelle Ansätze laden entweder die gesamte Bibliothek in den Reasoning-Kontext des Agents oder rufen über Embeddings ab. Beides verschlechtert sich mit wachsendem Bibliotheken: Full-Context verbrennt Tokens, Retrieval verpasst Kompositionen. Das Paper schlägt generative Skill-Komposition vor, bei der das Modell Skill-Kombinationen dynamisch synthetisiert, anstatt aus einem festen Pool auszuwählen. Der Mechanismus rahmt die Auswahl von Retrieval zu Synthese um, wobei der Agent darüber reasoniert, wie Skills für die Aufgabe kombiniert werden sollen. Für Entwickler ist dies wichtig, weil Skill-Bibliotheken die natürliche Wiederverwendungseinheit über Agents hinweg sind und die Kompositionsstrategie bestimmt, wie viel prozedurales Gedächtnis ein Agent ohne Kontextfäule trägt. Achten Sie auf die vollständigen Benchmark-Ergebnisse des Papers, die generative Komposition mit Retrieval-Baselines auf Standard-Agent-Suiten vergleichen.

[10:56] TRIAGE Paper Proposes Role-Typed Credit Assignment for Agentic RL

TRIAGE ist ein rollentypisiertes Credit-Assignment-Schema für agentic Reinforcement Learning, das eine semantische Rollenachse auf GRPOs flacher Ergebnis-Advantage hinzufügt, sodass Search-, Click-, Edit-, Navigation- und Objektinteraktions-Tokens nicht mehr ein Lernsignal teilen. Die Autoren Yuanda Xu, Zhengze Zhou und Hejian Sang, in arXiv 2606.32017, rahmen das Problem direkt ein: GRPOs Verifier-only Reward vermengt alles, was ein Rollout produziert hat, sodass ein nützlicher Exploration-Schritt in einem fehlgeschlagenen Rollout bestraft wird wie ein verschwendeter, während redundante Schritte in einem erfolgreichen Rollout verstärkt werden. TRIAGE fügt einen strukturierten Judge ein, der jedes Segment vor der Advantage-Berechnung nach Rolle klassifiziert, und das Rollenlabel moduliert das Update. Die berichteten Gewinne konzentrieren sich dort, wo Rollouts auf dichtem Werkzeuggebrauch basieren. Für Entwickler, die Agent-Policies mit RL trainieren, rahmt das Ergebnis den nächsten Optimierungshebel weg von einem stärkeren Verifier und hin zu einer besseren Credit-Assignment-Schicht. Achten Sie auf das Judge-Modell selbst, da die Qualität der Rollenklassifikation zum neuen Engpass wird.

[11:54] Practical queue

Aus den heutigen Meldungen: Für Entwickler verschiebt der Release-Readout, worauf der Stack standardmäßig bauen kann — vergleichen Sie das Changelog mit Ihrer gepinnten Version, bevor Sie den neuen Standard übernehmen. Die Rückkehr von Claude Fable 5 stellt eine Frontier-Tier über Opus wieder her, die Agent-Stacks über einen router-freundlichen Slug erreichen können, und der unmittelbare Schritt ist ein Bake-off gegen einen aktuellen Opus-Klassen-Standard. Was dies für Sonnet 5 bedeutet: Ein einzelner Sonnet-Klassen-Endpunkt exponiert nun einen abstimmbaren Reasoning-Dial anstatt eines binären Thinking-Toggles. Was dies für Image-Pipelines bedeutet: Wenn Ihre Image-Agent-Arbeit durch per-Image-Kosten oder Rate-Limits auf Pro-Tier limitiert ist, ist der Flash-Lite-Endpunkt für hohes Anrufvolumen konzipiert. Für Entwickler ist das praktische Signal von Orca, dass allgemeines Weltmodell-Pretraining zu einer glaubwürdigen Alternative zu aufgabenspezifischen Stacks wird. Agents-A1 ist wichtig, weil Frontier-Agent-Performance möglicherweise keine Billionen-Parameter-Serving-Budgets mehr erfordert — Specialist-Teacher-Distillationsrezepte können Frontier-Fähigkeit in bereitstellbare Größen komprimieren. OmniRoute ist eine selbst gehostete Routing-Schicht, die zwischen einem Coding-Agent und Upstream-Modell-APIs sitzt, sodass eine einzelne OpenAI-kompatible Basis-URL Provider-by-Provider-Client-Konfiguration ersetzt. BlockPilot argumentiert, dass die Blockgröße eine gelernte, pro-Anfrage-Entscheidung sein sollte, die von den Prefilling-Repräsentationen des Prompts gesteuert wird. Für Entwickler, die Agent-Stacks mit wachsenden Skill-Bibliotheken betreiben, signalisiert generative Skill-Komposition eine Verschiebung weg von brachialer Kontextstopfung und Embedding-Retrieval hin zu generativer Komposition. Für Entwickler, die Agent-Policies mit RL trainieren, rahmt TRIAGE Credit Assignment, nicht Verifier-Qualität, als den nächsten Optimierungshebel um.