
Claude Code 2.1.165, Microsofts MAI-Coding-Modellfamilie und das Agent-Infrastruktur-Projekt-Radar
Claude Code 2.1.165 ist das neueste npm `latest` Stand vom 5. Juni, nach 2.1.163 und 2.1.164 – alles Bugfix- und Zuverlässigkeitsversionen, die Hintergrundsitzungen, Plugin-Hooks, Skill-Syntax und Windows-Pfadbehandlung bereinigen. Microsoft hat am 2. Juni auf der Build 2026 eine sieben Modelle umfassende MAI-Familie vorgestellt, mit MAI-Code-1-Flash als Highlight: ein 5B-Parameter-Coding-Modell, das auf GitHub Copilot-Produktionsumgebungen trainiert wurde, 51 % auf SWE-Bench Pro erreicht und 60 % weniger Token als vergleichbare Modelle verbraucht. Die Episode auch... Show notes: https://tobyonfitnesstech.com/de/podcasts/episode-64/
🎧 Listen to EpisodeFolge 64 — 5. Juni 2026
[00:00] Episodeneinstieg
Claude Code 2.1.165 erscheint als neuester npm-latest am 5. Juni 2026, nach 2.1.163 und 2.1.164 — alles stille Wartungsversionen, die Hintergrundsitzungen, Plugin-Hooks, Skill-Syntax und Windows-Pfadbehandlung bereinigen. Microsoft präsentierte am 2. Juni auf der Build 2026 eine sieben Modell umfassende MAI-Familie, mit MAI-Code-1-Flash als Hauptattraktion: ein 5B-Parameter-Coding-Modell, das auf GitHub Copilot-Produktions-Frameworks trainiert wurde, mit 51% auf SWE-Bench Pro und 60% weniger Token als vergleichbare Modelle. MAI-Image-2.5 erreicht 1403 auf der Arena Image Edit Rangliste, vor Gemini 3 Pro. NVIDIA's Cosmos 3 eröffnet die physische KI-Entwicklung mit einem offenen Weltgrundmodell in drei Größen auf Hugging Face und GitHub. Der Projekt-Radar deckt Agent-Speicher, Code-Graphen und MCP-Tools ab, die den lokalen Coding-Agent-Stack bedienen.
[02:00] Claude Code 2.1.165 — Drei-Release-Wartungsblock für Hintergrundsitzungen, Hooks und Windows
Claude Code 2.1.165 ist der npm-latest vom Juni und vervollständigt einen Drei-Release-Wartungsblock ab der EP063-Basisversion 2.1.162. Der Block ist keine Feature-Welle — es ist die Art von Release, die Lücken schließt, die Operatoren entdecken, wenn ein Workflow schiefgeht.
Version 2.1.163 ist von den dreien operationell am interessantesten. requiredMinimumVersion und requiredMaximumVersion verwaltete Einstellungen ermöglichen es Org-Administratoren, Versionsgates durchzusetzen — Claude Code verweigert den Start, wenn seine Version außerhalb des erlaubten Bereichs liegt, und leitet den Benutzer auf eine genehmigte Version weiter. Für Flottenbetreiber, die deterministisches Verhalten über Versionen hinweg benötigen, ist dies ein echtes Compliance-Primitiv. /plugin list zeigt nun installierte Plugins mit --enabled/--disabled-Filtern, was wichtig ist, wenn Plugin-Spread das Auditieren des tatsächlich Geladenen erschwert.
Stop- und SubagentStop-Hooks erhalten die Fähigkeit, hookSpecificOutput.additionalContext zurückzugeben — der Hook kann Claude Feedback geben und den Turn fortführen, ohne als Hook-Fehler gekennzeichnet zu werden. Das ändert, wie Hook-Autoren eine Sitzung erweitern können: Ein Hook, der Informationen bereitstellen muss, ohne den Turn zu blockieren, hat nun einen sauberen Vertrag. Skills fügen eine \$-Escape-Syntax für literales $ vor einer Ziffer hinzu, was wichtig für Befehlskörper ist, die Shell-Variablenreferenzen enthalten. stdio-MCP-Server empfangen nun dieselbe CLAUDE_CODE_SESSION_ID wie Hooks und Bash bei --resume, was eine Lücke schließt, in der MCP-Server eine Sitzung über Resume-Operationen hinweg nicht korrelieren konnten.
Die Windows-Fixes verdienen individuelle Erwähnung. Eine Regression in 2.1.154 führte dazu, dass $TMPDIR für alle Bash-Befehle statt nur für Sandbox-Befehle zu /tmp/claude-{uid} überschrieben wurde, was Bazel- und EDR-geschützte Go-Workflows unterbrach, die vom tatsächlichen Temp-Verzeichnis abhängen. Bash-Befehle schlagen nun auf Windows korrekt fehl, wenn das Session-Env-Verzeichnis das Read-Only-Attribut hat oder sich in OneDrive befindet. Die übergreifende Sitzungskommunikation (SendMessage) brach stillschweigend, wenn CLAUDE_CODE_TMPDIR oder $TMPDIR auf ein tiefes Verzeichnis verwies — das ist nun behoben.
Version 2.1.165 ist reine Bugfixes und Zuverlässigkeitsverbesserungen. Die praktische Upgrade-Liste: Auditen Sie die Versions-Compliance-Einstellungen Ihrer Flotte, führen Sie /plugin list aus, um zu sehen, was tatsächlich installiert ist, testen Sie einen Hook, der additionalContext zurückgibt, um das Turn-Erweiterungsverhalten zu verifizieren, und verifizieren Sie, dass Bazel- und EDR-geschützte Workflows nach dem $TMPDIR-Regression-Fix korrekt ausgeführt werden.
[14:00] Microsoft MAI-Familie auf der Build 2026 — MAI-Code-1-Flash und das Copilot-native Coding-Modell
Microsoft eröffnete die Build 2026 am 2. Juni mit einer Ankündigung einer sieben Modell umfassenden MAI-Familie. Das Modell, das für den Agent-Stack am wichtigsten ist, ist MAI-Code-1-Flash: ein 5-Milliarden-Parameter-Coding-Modell, das direkt auf GitHub Copilot-Produktions-Tool-Harnesses trainiert wurde, nicht auf generischen Benchmark-Datensätzen. Der Trainingsansatz ist der wesentliche Differenziator. Durch das Training auf denselben Harnesses, die Entwickler für ihre täglichen Coding-Aufgaben verwenden, lernt das Modell, wie es mit umgebenden Tools und Systemen in agentischen Coding-Workflows interagiert — nicht nur, wie es eine Benchmark-Aufforderung beantwortet.
Die Benchmark-Zahlen sind konkret. MAI-Code-1-Flash erreicht 51% auf SWE-Bench Pro, ein +16-Punkte-Vorsprung gegenüber Claude Haiku 4.5 auf derselben Produktions-Harness. Auf SWE-Bench Verified, SWE-Bench Multilingual und Terminal Bench 2 übertrifft es Haiku 4.5 in allen vier Kern-Coding-Benchmarks. Die adaptive Längensteuerung der Lösung ist der Effizienzmechanismus: Das Modell bleibt prägnant bei einfachen Anfragen und weist mehr Reasoning-Budget bei schwierigeren Problemen zu. Microsoft sieht 60% weniger Lösungstokens bei komplexen Aufgaben, was sich in geringerer Latenz, niedrigeren Kosten und flüssigeren interaktiven Workflows niederschlägt.
MAI-Image-2.5 erreichte 1403 auf der Arena Image Edit Rangliste am 2. Juni, vor Gemini 3 Pro Image Preview 2K bei 1388. Das ist eine echte Ranglistenposition für Microsoft bei multimodaler Bildbearbeitung — das erste Mal seit einer Weile, dass es nachweislich vor Google bei einem vergleichbaren Benchmark liegt. Für Agent-Stacks innerhalb von Microsoft-Umgebungen schließt dies eine Lücke, in der Bildaufgaben außerhalb der Copilot/Foundry-Oberfläche geroutet werden mussten.
MAI-Thinking-1 (35B aktive / ~1T gesamt Parameter) befindet sich in der privaten Vorschau auf Microsoft Foundry, positioniert gegen Claude Opus 4.6 auf SWE-Bench Pro. Die vollständige MAI-Familie umfasst Bild-, Sprach- und Reasoning-Modelle, aber MAI-Code-1-Flash ist das Modell, das Coding-Agent-Workflows heute verändert.
Das strategische Signal: Microsoft reduziert die OpenAI-Abhängigkeit und konkurriert bei Grundmodell-Fähigkeiten mit Trainings-Pipelines, die auf seinen eigenen Entwickler-Stack abgestimmt sind. Für Agent-Stack-Operatoren, die zwischen Labors routen, fügt dies ein neues Copilot-natives Modell hinzu, das sich bereits in den Tools befindet, die sie nutzen.
[26:00] NVIDIA Cosmos 3 — Offenes physisches KI-Grundmodell für die nächste Agenten-Generation
NVIDIA startete Cosmos 3 auf der COMPUTEX 2026 als offenes Weltgrundmodell für physische KI. Das Modell kombiniert Vision-Reasoning, Weltgenerierung und Aktionsvorhersage in einer einzigen Mixture-of-Transformers-Architektur — drei Fähigkeiten, die zuvor separate Systeme waren. Drei Größen sind verfügbar: Cosmos 3 Nano (16B Parameter, optimiert für Workstation-klassige RTX PRO 6000 GPUs), Cosmos 3 Super (64B Parameter, für Rechenzentrums-Hopper- und Blackwell-GPUs für großangelegte synthetische Datengenerierung) und Cosmos 3 Edge (demnächst, für Echtzeit-Edge-Inferenz).
Cosmos 3 ist offen für Forschung und kommerzielle Nutzung. NVIDIA hat die Modellgewichte, Trainingsskripte, Deployment-Tools und Datensätze auf Hugging Face und GitHub veröffentlicht. Die Benchmark-Abdeckung ist breit: Artificial Analysis, Physics-IQ, PAI-Bench, R-Bench für Weltgenerierungsgenauigkeit, RoboLab und RoboArena für Aktionsrichtlinien, und VANTAGE-Bench und TAR für Vision-Verständnis. Unter Open-Source-Modellen führt Cosmos 3 auf diesen Benchmarks.
Der Agent-Stack-Aspekt ist keine unmittelbare Coding-Arbeit — es geht darum zu verstehen, was physische KI-Grundmodelle für die nächste Generation von Agent-Hardware bedeuten. Agenten, die mit Robotern, Fahrzeugen und realen Umgebungen interagieren, benötigen genau die Fähigkeiten, die Cosmos 3 kombiniert: Vision-Reasoning, Weltsimulation und Aktionsvorhersage. Für Operatoren, die den Horizont beobachten, ist dies das offene Grundmodell, auf dem Robotik-Teams und Simulations-basierte Entwicklungswerkstätten aufbauen werden.
[35:00] GitHub Copilot Desktop-App — Agent-natives Orchestrierung für den Copilot-Stack
GitHubs neue Desktop-App ist die Produktankündigung, die Copilot von einem reaktiven Coding-Assistenten in eine proaktive Multi-Agent-Orchestrierungsoberfläche verwandelt. Das „My Work"-Dashboard überwacht und steuert mehrere KI-Agenten gleichzeitig über Repositories, Issues, Pull Requests und Hintergrundautomatisierungen. Jede Sitzung läuft in ihrem eigenen isolierten Git-Worktree — das ist die entscheidende Architekturentscheidung für parallele Agentenarbeit: keine Branch-Konflikte, keine manuelle Branch-Verwaltung, keine Sitzungsinterferenzen, wenn zwei Agenten gleichzeitig am selben Codebase arbeiten.
Canvases sind das innovativste Interaktionsdesign. Es sind interaktive, bidirektionale visuelle Oberflächen, auf denen Entwickler und Agenten in Echtzeit zusammenarbeiten. Der Agent zeigt seinen aktuellen Plan, Terminal-Ausgaben, Deployments oder Browser-Sitzungen auf dem Canvas an. Der Entwickler kann die Arbeit überprüfen, steuern und verifizieren, ohne Fenster zu wechseln. Das ist ein anderes Modell als das Terminal-und-Chat-Muster, das die meisten Agenten heute verwenden.
Agent Merge automatisiert den Pull-Request-Lebenszyklus von der Issue-Übernahme über Review, Checks und Merging. Das Copilot SDK ist in sechs Sprachen allgemein verfügbar, was bedeutet, dass benutzerdefinierte Tools und Agent-Erweiterungen zu einer erstklassigen Entwicklungsoberfläche werden, anstatt ein Hack zu sein. Der Voice-Modus in der CLI fügt einen neuen Eingabemodus für Entwickler hinzu, die Spracheingabe gegenüber dem Tippen bevorzugen.
Der praktische Schritt: Wenn Sie Copilot Pro- oder Enterprise-Abonnent sind, nehmen Sie an der technischen Vorschau teil und testen Sie eine parallele Agenten-Sitzung auf einem risikoarmen Repo. Verwenden Sie das SDK, um ein benutzerdefiniertes Tool zu erstellen, das erweitert, wie ein Agent mit Ihrem bestehenden Workflow interagiert.
[44:00] OpenHands 1.6.0 — Kubernetes, Planning Mode und Enterprise-grade autonomes Coding
OpenHands ist der am besten produktionsgehärtete autonome Coding-Agent im Open-Source-Ökosystem. Version 1.6.0 wurde im März 2026 mit zwei großen Neuerungen veröffentlicht: Kubernetes-Unterstützung für containerisierte Agenten-Workloads im großen Maßstab und ein Beta-Planning-Mode, der explizite Aufgabenzerlegung vor der Ausführung hinzufügt.
Die Agentenarchitektur ist als Referenzpunkt wert, sie zu verstehen. OpenHands läuft in einer Sandbox-Umgebung mit eingebetteter Shell, Webbrowser, Code-Editor und Task-Planner. Es führt Ende-zu-Ende-Softwareentwicklungsaufgaben durch — Code schreiben und modifizieren, Befehle ausführen, im Web surfen, Tests ausführen, Debugging — ohne Umgebungen zu wechseln. LLM-Flexibilität bedeutet, dass Sie GPT-4, Claude, Gemini, lokale Modelle oder andere einbinden können.
Die Liste der Enterprise-Adoption ist das konkreteste Signal: AMD, Apple, Google, Amazon, Netflix und NVIDIA nutzen es in der Produktion. Das sagt Ihnen etwas darüber, wo autonome Coding-Agenten auf der Reifekurve stehen — keine Forschungsprototypen, sondern Produktionstools in einigen der anspruchsvollsten Engineering-Umgebungen.
Für den Agent-Stack ist OpenHands eine primäre Referenz dafür, wie produktives autonomes Coding aussieht. Die Kubernetes-Integration bedeutet, dass es jetzt Teil einer containerisierten, orchestrierten Agenten-Infrastruktur sein kann. Die Planning-Mode-Beta ist值得关注, da explizite Zerlegung vor der Ausführung eine der Lücken ist, die autonome Agenten, die in Demos funktionieren, von denen trennt, die in der Produktion funktionieren.
[53:00] Praktische Warteschlange
Für Claude Code: Überprüfen Sie Ihre Fleet-Version-Compliance-Einstellungen, führen Sie /plugin list aus, um zu sehen, was tatsächlich installiert ist, und verifizieren Sie, dass Bazel- und EDR-geschützte Workflows nach dem $TMPDIR-Regression-Fix korrekt funktionieren. Für Microsoft MAI: Testen Sie MAI-Code-1-Flash über GitHub Copilot an einer echten Coding-Aufgabe und vergleichen Sie den Token-Verbrauch; wenn Sie in einem Microsoft-Umfeld arbeiten, testen Sie MAI-Image-2.5 über Copilot an einer Bildbearbeitungsaufgabe. Für NVIDIA Cosmos 3: Laden Sie das Modell von Hugging Face, wenn Sie an Physical AI oder Robotik arbeiten, und verfolgen Sie die Edge-Size-Tier für zukünftige Edge-Agent-Hardware. Für GitHub Copilot Desktop-App: Nehmen Sie an der technischen Vorschau teil und testen Sie eine parallele Agenten-Sitzung auf einem risikoarmen Repo. Für OpenHands: Führen Sie es gegen eines Ihrer Repos aus, testen Sie Planning Mode an einer mehrstufigen Aufgabe und vergleichen Sie die Ende-zu-Ende-Aufgabenabschlussrate mit einem Single-Turn-Coding-Agenten.