
Claude Code 2.1.144, Cursor Composer 2.5, Stainless, Notion, Vercel AI SDK und Cloudflare Mesh
AgentStack Daily EP054 beginnt mit konkreter Release-Arbeit: Claude Code CLI 2.1.144 stabilisiert Hintergrund- und getrennte Agenten-Sitzungen, behebt ein langes Startproblem, wenn der API-Endpunkt nicht erreichbar ist, repariert MCP-Paginierung und nicht unterstützte Bildverarbeitung, fügt Fortsetzung von Hintergrund-Sitzungen und sitzungsbezogenen Modell-Auswahl hinzu und verbessert Lese-vor-Bearbeiten- und Suchfehlerverhalten. Dann fünf weitere entwicklerrelevante Moves: Cursor Composer 2.5, ein Kimi K2.5-basiertes Coding-Modell zu etwa einem Zehntel der Frontier-Kosten pro. Show notes: https://tobyonfitnesstech.com/de/podcasts/episode-54/
🎧 Listen to Episode[00:00] Eröffnung zu den Claude Code CLI-Änderungen Claude Code CLI 2.1.144 ist das Release, das zuerst inspiziert werden sollte, da es genau die Bereiche adressiert, in denen unbeaufsichtigte Agenten versagen: Hintergrund- und getrennte Sitzungen, Startverhalten in beeinträchtigten Netzwerken, MCP-Transport und Tool-Aufruf-Hygiene. Die Hauptfixes sind konkret. Ein Start-Up von bis zu fünfundsiebzig Sekunden, wenn der API-Endpunkt hinter einem Captive Portal, einer Firewall oder einem VPN nicht erreichbar ist, ist behoben, da Nebenkanal-Aufrufe jetzt nach fünfzehn Sekunden timeouten. MCP-Server, die ihre Werkzeugliste paginieren, geben nicht mehr nur die erste Seite zurück. MCP-Bilder mit nicht unterstützten MIME-Typen werden auf die Festplatte gespeichert, anstatt das Gespräch zu unterbrechen. Hintergrundsitzungen erhalten Resume-Unterstützung und elapsed-duration Abschlussmeldungen, und der Modell-Auswähler ist jetzt sitzungsbasiert mit einem separaten Standard.
Dies ist ein Wartungs-Release, und das ist der Punkt. Die Arbeit liegt in den Fehlermodi: ein getrennter Agent, der weiterlaufen sollte, eine Werkzeugliste, die stillschweigend gekürzt wurde, ein Bild, das ein Gespräch unterbrach, eine wiederaufgenommene Sitzung, die das falsche Modell auswählte. Nach dem Release-Ausblick behandelt die Episode fünf weitere für Builder relevante Schritte: Cursor Composer 2.5 als günstigeres Langzeit-Kodiermodell, Anthropic übernimmt Stainless und zieht SDK-Code-Generierung ins Haus, Notion verwandelt seinen Arbeitsbereich in eine gehostete Agent-Laufzeit, das Vercel AI SDK schreibt seinen LangChain- und LangGraph-Adapter um, und Cloudflare Mesh bringt Zero-Trust-Networking unter den Agent-Lebenszyklus.
[02:30] Agent-Stack-Release-Ausblick — Claude Code CLI 2.1.144 Beginnen wir mit dem Start-Up, denn es ist das klarste Beispiel für einen Fix, der mehr für Agenten als für interaktive Benutzer relevant ist. Wenn der API-Endpunkt nicht erreichbar war, konnte die CLI bis zu fünfundsiebzig Sekunden blockieren, bevor sie etwas Nützliches tat. Ein Mensch bemerkt es und wartet. Ein unbeaufsichtigter Agent-Durchlauf, ein geplanter Job oder eine Hintergrundsitzung in einem instabilen Netzwerk verwandelt das in ein Steckenbleiben, einen Timeout oder ein verpasstes Fenster. Der Fix begrenzt Nebenkanal-Aufrufe auf fünfzehn Sekunden. Die Lektion für Builder ist, dass Start-Resilienz in beeinträchtigten Netzwerken eine Agent-Zuverlässigkeitseigenschaft ist, keine kosmetische.
Die MCP-Fixes sind der zweite wichtige Block. MCP-Server mit paginierten Werkzeuglisten-Antworten gaben zuvor nur die erste Seite zurück, was bedeutet, dass ein Agent stillschweigend Werkzeuge vermissen konnte, die er haben sollte. Das ist ein stiller Korrektheits-Fehler: nichts wirft einen Fehler, der Agent kann einfach etwas nicht tun, was er tun können sollte, und der Durchlauf sieht wie ein Schlussfolgerungsfehler statt eines Transport-Fehlers aus. Das Release stoppt auch, dass MCP-Bilder mit nicht unterstützten MIME-Typen, wie SVG, das Gespräch unterbrechen; das Bild wird stattdessen auf die Festplatte gespeichert und referenziert. Und der MCP-Listen-Befehl meldet jetzt das eigentliche Problem, wenn eine Konfigurationsdatei nicht geparst werden kann, anstatt stillschweigend keine Server anzuzeigen.
Hintergrund- und getrennte Sitzungen erhalten die meisten einzelnen Fixes, was zeigt, wo die echten operativen Schmerzen waren. Hintergrundsitzungen unterstützen jetzt Resume und zeigen abgelaufene Dauer bei Abschluss. Abstürze von Hintergrundsitzungen unter macOS, wenn das Projekt unter einem Ordner mit Full Disk Access-Schutz liegt, sind behoben. Scrollen, Mausrad und Navigation in angehängten Hintergrundsitzungen unter Windows funktionieren jetzt, und das Schließen des Terminals während des Angehangenseins führt nicht mehr zum Absturz. Wiederaufgenommene Sitzungen behalten das Modell, das sie verwendeten, anstatt die Wahl einer anderen Sitzung zu erben. Edit und Write verweigern nicht mehr mit einem Worktree-Isolations-Fehler direkt nach dem Abtrennen. Respawn meldet nicht mehr fälschlicherweise eine laufende Sitzung als gestoppt, und ein kurzes Aufwachversagen wird nicht mehr dauerhaft als Start-Absturz markiert. Zusammen machen diese den Trennen, Ausführen, Aufwecken, Wiedergebären und Wiederaufnehmen-Lebenszyklus zu etwas, um das ein Builder einen Supervisor setzen kann.
Tool-Aufruf-Hygiene ist der vierte Bereich. Head- und Tail-Ansichten erfüllen jetzt die Lese-vor-Bearbeiten-Prüfung, und leere Ergebnisse von grep, git grep oder git diff werden nicht mehr als Werkzeugfehler gemeldet. Falsche Werkzeugfehler sind nicht kostenlos: ein Agent, der denkt, dass eine erfolgreiche Suche ohne Treffer fehlgeschlagen hat, wird wiederholen, nachdenken oder einen schlechteren Weg einschlagen. Das Entfernen von unerwünschten Fehlern entfernt unerwünschtes Agentenverhalten und verschwendete Runden. Der Modell-Auswähler ist jetzt sitzungsbasiert, mit einem separaten Standard für neue Sitzungen, sodass das Ändern des Modells für eine Aufgabe nicht stillschweigend alles ändert, einschließlich für Bedrock- und Vertex-Benutzer, die eine Langzeit-Opus-Option auswählen.
Die praktische Upgrade-Haltung ist, 2.1.144 zu installieren und dann die geänderten Oberflächen zu testen, anstatt sie vorauszusetzen. Starten Sie eine Hintergrundsitzung, trennen Sie sie, wecken Sie sie, nehmen Sie sie wieder auf und bestätigen Sie, dass sie ihr Modell behält. Führen Sie einen MCP-Server aus, der seine Werkzeugliste paginiert, und bestätigen Sie, dass der vollständige Satz sichtbar ist. Führen Sie einen nicht unterstützten Bildtyp durch ein MCP-Werkzeug. Führen Sie auf einem Netzwerk aus, auf dem der API-Endpunkt kurzzeitig nicht erreichbar ist, und bestätigen Sie, dass der Start nicht mehr stecken bleibt. Das Release ist nur wertvoll, wenn die Fehlermodi, die es entfernt, diejenigen sind, die Ihre Agenten tatsächlich treffen.
[18:00] Cursor Composer 2.5 — ein günstigeres Langzeit-Kodier-Agenten-Modell Cursor veröffentlichte Composer 2.5 am 18. Mai, aufgebaut auf einer Kimi K2.5-Basis mit intensiverem Post-Training und ausgerichtet auf längere autonome Programmier-Sitzungen. Die gemeldeten Zahlen: SWE-Bench Multilingual von 73,7 auf 79,8 Prozent steigend, Terminal-Bench von 61,7 auf 69,3 Prozent, ein Gleichstand mit Opus 4.7 bei Terminal-Bench 2.0 während es hinter GPT-5.5 liegt, bei fünfzig Cent pro Million Input-Tokens und zwei Dollar fünfzig pro Million Output-Tokens. Die Schlagzeile ist der Preis: ungefähr ein Zehntel von Opus 4.7 pro Token bei vergleichbarer Programmier-Benchmark-Leistung.
Die Trainingsmethode ist der Teil, der es wert ist, erklärt zu werden. Cursor berichtet von drei Veränderungen. Erstens, textuelles Feedback Reinforcement Learning: anstatt nur einer Belohnung am Ende eines Durchlaufs erhält das Modell lokalisierte Hinweise bei fehlgeschlagenen Werkzeugaufrufen. Für einen Langzeit-Programmier-Agenten ist das eine Credit-Assignment-Änderung. Ein einzelnes Bestehen-oder-Fehlschlagen-Signal am Ende einer langen Sitzung sagt dem Modell sehr wenig darüber, welches von fünfzig Werkzeugaufrufen der Fehler war. Lokalisiertes textuelles Feedback am Punkt des Fehlers gibt ein viel schärferes Lernsignal. Zweitens, fünfundzwanzigmal mehr synthetische Aufgaben, einschließlich Feature-Löschungs-Wiederaufbau-Rätsel mit exakter Ground Truth. Drittens, MoE-skaliertes Trainings-Infrastruktur mit shardierten Muon-Optimierern und Dual-Mesh HSDP, wobei das Reinforcement Learning in echten Cursor-Sitzungen mit der gleichen Harness ausgeführt wird, die das eingesetzte Modell verwendet.
Dieses letzte Detail, Harness-faithful RL, ist das, worüber Builder nicht hinweglesen sollten. Das Verhalten eines Programmier-Agenten wird ebenso sehr von der Harness geprägt wie von den Gewichten: wie Werkzeuge präsentiert werden, wie Fehler zurückkommen, wie Kontext getrimmt wird, wie Wiederholungen funktionieren. Das Trainieren des Modells in einer anderen Harness als der, in der es ausgeliefert wird, führt zu einer Distributionslücke, die sich darin zeigt, dass sich das Modell in der Produktion schlechter anfühlt als in der Evaluierung. Das Ausführen von RL in der eingesetzten Harness schließt diese Lücke. Die Builder-Erkenntnis ist ökonomisch: wenn ein Modell randnahe Programmier-Benchmarks zu einem Zehntel der Token-Kosten erreicht, ändern sich die Kalkulationen für das Ausführen vieler Langzeit-Sitzungen, und ein Muster mit günstigem Standard und Frontier-Escalation wird attraktiv. Die Warnung ist, dass Benchmark-Gleichstand nicht Workflow-Gleichstand ist; der echte Test ist die vollständige Kosten pro abgeschlossener Aufgabe in Ihrer eigenen Harness bei Ihrer eigenen Langzeit-Sitzungs-Verteilung.
[28:00] Anthropic übernimmt Stainless und bringt SDK-Code-Generierung ins Haus Anthropic kündigte am 18. Mai an, dass es Stainless übernommen hat, das Entwickler-Tools-Unternehmen, dessen Dienst API-Spezifikationen in produktionsreife, automatisch gewartete SDKs über Python, TypeScript, Go, Kotlin und Java umwandelt. Stainless wurde von einer langen Liste von KI-Laboren und Infrastruktur-Unternehmen verwendet. Anthropic plant, die gehosteten Stainless-Produkte einzustellen, einschließlich des SDK-Generators; bestehende Kunden behalten die bereits generierten SDKs, verlieren aber zukünftigen Zugang zum gehosteten Dienst.
Der Grund, warum dies eine Agent-Stack-Geschichte ist, ist, was ein SDK tatsächlich in einem Agenten-System ist. Das SDK ist die typisierte Grenze, die ein Agent jedes Mal überschreitet, wenn er eine externe API aufruft. Wenn ein Agent ein Werkzeug aufruft, das einen Dienst umschließt, hängt die Korrektheit dieses Aufrufs davon ab, dass der Client zur Live-API passt: die richtigen Endpunkte, Request- und Response-Formen, Fehlertypen und Paginierungsverhalten. Eine Code-Generierungs-Pipeline, die eine Spezifikation in diesen Client umwandelt und ihn synchron hält, wenn sich die Spezifikation ändert, ist Infrastruktur direkt unter der Werkzeugschicht des Agenten. Der Fehlermodus ist Spezifikation-zu-SDK-Drift: ein Client, der kompiliert und gut aussieht, aber stillschweigend nicht zur Live-API passt. Für einen Menschen taucht das als Fehlerbericht auf; für einen autonomen Agenten taucht es als Werkzeugaufruf auf, der etwas Unerwartetes zurückgibt, worum der Agent dann falsch reasoniert. Für Teams, die auf den gehosteten Generator angewiesen waren, ist die Wahl Open-Source-OpenAPI-Generatoren, Vendor-SDKs oder das Umwickeln der API hinter einem stabilen internen Vertrag wie einem MCP-Server, und das Builder-Muster ist, die Spezifikationsversion zu pinnen, die Live-Spezifikation regelmäßig zu diffen und Drift als Alarm zu behandeln, anstatt als Entdeckung, wenn ein Agent anfängt, sich seltsam zu verhalten.
[36:00] Notions Entwickler-Plattform verwandelt den Arbeitsbereich in eine gehostete Agent-Laufzeit Notion startete seine Entwickler-Plattform am 13. Mai. Die Verschiebung ist, dass der Arbeitsbereich zu einem Ort wird, an dem Agenten laufen, nicht nur einem Ort, an dem sie lesen. Workers sind eine gehostete Code-Sandbox ohne Server, die bereitgestellt werden müssen. Die External Agent API lässt Drittanbieter-Agenten wie Claude Code, Cursor und Codex als gleichberechtigte Arbeitsbereich-Teilnehmer agieren. Datenbank-Sync hält externe Systeme of Record in Notion frisch ohne Infrastruktur. Bidirektionale Webhooks lassen einen Worker ein Ereignis empfangen, Logik ausführen und in Notion agieren oder andere APIs aufrufen. Eine CLI übernimmt Auth, Worker-Deploy und Automatisierung vom Terminal aus.
Das technisch interessante Stück für Builder sind deterministische Worker-Werkzeuge. Anstatt eines LLM-vermittelten Werkzeugaufrufs kann ein benutzerdefinierter Agent einen Worker aufrufen, der vorhersagbaren Code mit token-effizienter Ausführung ausführt. Das ist das richtige Muster, wenn ein Schritt Deterministik und benutzerdefinierte Logik benötigt, die ein modell-vermittelter Aufruf nicht garantieren kann. Der Tradeoff, über den man nachdenken sollte, ist die Vertrauensgrenze: das Ausführen von Drittanbieter-Agenten und benutzerdefiniertem Code in einem Arbeitsbereich, der echte Unternehmensdaten enthält, bedeutet, dass das Governance-Modell — schrittweises Vertrauen, menschliche Überprüfung, sandboxed Ausführung, einheitliche Aktivitätssichtbarkeit — tragende Arbeit leistet, nicht Dekoration. Builder sollten die External Agent API als Multi-Vendor-Integrationsfläche behandeln und die Vertrauensgrenze als etwas, das man gestaltet, nicht erbt.
[42:00] Vercel AI SDK schreibt seinen LangChain- und LangGraph-Adapter um
Die Umschreibung des @ai-sdk/langchain-Adapters ist wichtig, weil die meisten Teams kein Framework von Ende zu Ende betreiben. Sie prototypen in einem, deployen in einem anderen und brauchen, dass die Nachrichten- und Stream-Formate interoperieren, ohne handgeschriebenen Kleber. Der neue Adapter bietet toBaseMessages und convertModelMessages, um AI SDK-Nachrichtenobjekte in das LangChain BaseMessage-Format zu konvertieren, und toUIMessageStream, um LangChain-Modell-Streams, LangGraph-Output und streamEvents()-Ergebnisse in den AI SDK UIMessageStream zu transformieren. LangSmithDeploymentTransport ist ein ChatTransport, der einen Browser-Client direkt mit einem LangSmith- oder LangGraph-Deployment verbindet, ohne benutzerdefinierte Backend-Route.
Die Builder-Linse ist Interop als Infrastruktur. Streaming-Event-Normalisierung, einschließlich granularer streamEvents() für Observability und typisierter benutzerdefinierter Daten-Teile, ist das, was es einer UI, die auf einem Stack aufgebaut wurde, ermöglicht, einen Agenten zu rendern, der auf einem anderen aufgebaut wurde, ohne verlustbehaftete Übersetzung. Die Transport-Abstraktion, die Backend-Kleber zwischen einem Browser und einem deployed Graph entfernt, ist eine echte Reduzierung beweglicher Teile. Framework-überbrückende Adapter sind keine Bequemlichkeit; für Mixed-Stack-Agent-Builder sind sie die Naht, die verhindert, dass ein heterogener Stack in maßgeschneiderte Konnektoren zerfällt.
[46:00] Cloudflare Mesh bringt Zero-Trust-Networking unter den Agent-Lebenszyklus
Cloudflares Agent-Cloud-Push beinhaltet Mesh, das Zero-Trust-privates Networking und Identität darauf anwendet, wie Agenten Dienste und einander erreichen, plus datierte Entwickler-Tool-Änderungen wie die Entfernung des Legacy-wrangler dev --remote-Flags am 18. Mai für KV-basierte Durable Objects. Der Builder-Punkt ist, dass, wenn Agenten sich von einem Prozess auf einem Laptop zu vielen sandboxed Workern bewegen, die interne und externe Dienste aufrufen, das Netzwerk zwischen ihnen aufhört, ein Implementierungsdetail zu sein. Es wird eine Angriffsfläche und eine Richtliniengrenze. Per-Agent-Identität mit bereichsbezogenen Anmeldedaten schlägt geteilte Umgebungsschlüssel, Netzwerkrichtlinien sollten sich über den Spawn-Act-Retire-Lebenszyklus an Identität anhängen, und Local-versus-Remote-Dev-Parität für Durable Object-State ist die Art von Detail, die entscheidet, ob ein Agent sich in der Entwicklung und Produktion gleich verhält. Die Empfehlung ist, das Agent-Netzwerk als etwas zu behandeln, das man mit Identität und bereichsbezogener Richtlinie gestaltet, nicht als etwas, das Agenten mit breitem Umgebungszugang erben.
[50:00] Abschluss: Upgrade-Prioritäten Für Claude Code, installieren Sie 2.1.144 und validieren Sie die geänderten Oberflächen direkt: Hintergrundsitzungs-Trennen, Aufwecken, Wiedergebären und Wiederaufnehmen; MCP-Werkzeuglisten-Paginierung und nicht unterstützte Bildbehandlung; Startverhalten in einem beeinträchtigten Netzwerk; und dass wiederaufgenommene Sitzungen das richtige Modell behalten. Für die Modellauswahl, benchmarken Sie Composer 2.5 in Ihrer eigenen Harness bei Ihren eigenen Langzeit-Sitzungs-Aufgaben und vergleichen Sie die vollständigen Kosten pro abgeschlossener Aufgabe, nicht Schlagzeilen-Durchlaufquoten. Für Werkzeug-Clients, prüfen Sie, woher SDK- oder Client-Generierung kommt, und behandeln Sie Spezifikation-zu-Client-Drift als einen überwachten Fehlermodus. Für Arbeitsbereich-Agenten, behandeln Sie Notions External Agent API als eine Multi-Vendor-Fläche und gestalten Sie die Vertrauensgrenze bewusst. Für Mixed Stacks, verwenden Sie den umgeschriebenen Vercel-Adapter, um LangGraph und das AI SDK zu überbrücken, anstatt Konnektoren von Hand zu rollen. Für Agent-Networking, hängen Sie Identität und bereichsbezogene Richtlinie an den Agent-Lebenszyklus, anstatt sich auf breiten Umgebungszugang zu verlassen.