Episode 49: Gemini Deep Research, Agents-SDK-Sandbox-Grenzen

[00:00] Gemini Deep Research wird zu einem API-förmigen Hintergrundagenten

Googles Gemini Deep Research Agent ist jetzt über die Gemini Interactions API als Preview-Agent verfügbar, anstatt als normaler One-Shot-Modellaufruf. Der betriebliche Aspekt ist wichtig: Entwickler starten eine Aufgabe mit einem Agenten wie deep-research-preview-04-2026, setzen die Hintergrundausführung, streamen optional Updates und behandeln das Ergebnis als mehrstufigen Job, der planen, suchen, lesen, synthetisieren und Zwischenartefakte zurückgeben kann. Der Stack unterstützt Google Search standardmäßig, remote MCP-Server mit Headern zur Authentifizierung, multimodale Eingaben wie Bilder und PDFs, generierte Bildausgaben in Responseschritten und Modell-Routing durch Gemini 3.1 Pro Preview. Für Entwickler liegt das Design-Muster näher an einem dauerhaften Workflow als an einem Chat-Completion: Speichern Sie die Interaktions-ID, konsumieren Sie Stream-Events, setzen Sie mit der letzten Event-ID nach einer getrennten Verbindung fort und rechnen Sie mit Latenzzeiten im Minutentakt sowie tool-bedingter Kostenabweichung. Die Empfehlung ist, dies hinter einen Job-Queue, einen Abbruchpfad, Budgetkontrollen, ein Source-Audit-UI und explizite Handhabung für nicht vertrauenswürdige Dokumente zu packen, da der Agent möglicherweise versteckten Text in Dateien lesen kann, während er die Recherche verankert.

[09:00] OpenAI Agents Python 0.17.1 erhöht die Sicherheit von Sandboxes, Traces, Sessions und Echtzeit-Genehmigungen

OpenAIs Agents Python SDK v0.17.1 ist die Art von Patch-Release, die Agent-Betreiber sorgfältig lesen sollten. Die Sandbox-Fixes begrenzen die Archiv-Extraktion, validieren Git-Repository-Subpfade, bewahren Repository-Root-Aliase und zeigen Provider-Fehlerdetails. Diese Änderungen definieren die Grenze zwischen vertrauenswürdigem lokalem Quellmaterial und dem, was in eine Ausführungsumgebung kopiert wird. Die Tracing-Fixes machen das Herunterfahren zum Best-Effort-Vorgang, verhindern, dass Exporter-Fehler den Batch-Worker töten, und schützen No-Op-Span-IDs, was die Observability-Zuverlässigkeit bei Prozessbeendigungen und partiellen Telemetrieausfällen verbessert. Die Session-Fixes bewahren gehostete Tool-IDs in OpenAI-Konversationssessions, überspringen korrupte Session-Datensätze und halten Metadaten-Zeitstempel konsistent über MongoDB- und Redis-backed Stores hinweg. Die Echtzeit-Fixes begrenzen Tool-Genehmigungen nach qualifiziertem Schlüssel, wecken Iteratoren beim Schließen, bewahren Audio-Ausgabeteile und vermeiden das Mutieren von caller-owned Audio-Buffers. Der praktische Migrationsrat ist: Upgraden Sie, wenn Sie Sandbox- oder Echtzeit-Agents betreiben, dann testen Sie Archiv-Importe, Git-Materialisierung, Trace-Export-Fehler, Session-Wiederaufnahme, Genehmigungs-Routing und alle strengen Schema-Pfade, die von Chat Completions-Kompatibilität abhängen.

[18:30] vLLM 0.20.2 macht Serving-Zuverlässigkeit zu einer Kernel-und-Cache-Untersuchung

vLLM v0.20.2 ist ein kompaktes Serving-Patch, zeigt aber auf die Fehlerarten, die wichtig sind, wenn große MoE- und multimodale Modelle tatsächlich eingesetzt werden. DeepSeek V4 Sparse Attention erhält ein Fix für einen MTP=1-Hang durch Reaktivierung des persistenten Top-k-Pfads auf Hopper und stellt sicher, dass der memset-Kernel zur CUDA-Graph-Capture-Zeit ausgeführt wird, unabhängig von der maximalen Sequenzlänge. Das ist ein Scheduling- und Capture-Order-Problem, kein Modellqualitätsproblem. Das Release behebt auch einen V1-Engine KV-Cache-Manager-Fehler, bei dem KV-Blocks die Zuordnung fehlschlagen konnten, was genau die Fehlerklasse ist, die nur unter bestimmten Sequenzlängen-, Batch- und Cache-Druck-Mustern auftritt. Für gpt-oss verdrahtet der Patch unbepaddete Hidden-Dimension-Metadaten durch einen Fake-MoE-Op, damit MXFP4 torch.compile überleben kann; für Qwen3-VL entfernt er eine Deepstack-Boundary-Check, die unter schwerer Last fehlschlagen konnte. Entwickler sollten dies als Erinnerung behandeln, Inference-Upgrades mit langen Kontexten, multimodaler Last, quantisierten Pfaden, CUDA-Graph-Einstellungen und model-spezifischen Parsern zu testen, bevor sie in die Produktion gehen.

[27:00] Strands TypeScript 1.1 erweitert die Laufzeitkontrollfläche für Agent-Anwendungen

Strands Agents TypeScript v1.1.0 ist nützlich, weil es previously implizites Laufzeitverhalten konfigurierbarer und observabler macht. Hook-Felder erscheinen jetzt um Tool-Aufrufe und nach der Invokation, mit optionaler Hook-Reihenfolge und einem AfterTools-End-Turn-Entscheidungsfeld. Die MCP-Unterstützung wird durch listTools()-Pagination, Server-Logs, Metadata-Getter, Fail-Open-Kontrollen und Symbol.asyncDispose-Cleanup für Clients produktionsreifer. Conversation Manager gewinnen proaktive Kontextkomprimierung, Graph- und Swarm-Ausführung erhalten Timeouts, Bedrock-Requests gewinnen Timeout-Kontrolle und lokale Agents exponieren Modellidentität. Das Release enthält auch Human-in-the-Loop-Interrupts, Result-Offloading, normalisierte ungültige Tool-Namen, Structured-Output-Arbeit für die WASM-Brücke, WASM-Contract-Tests und Modell-Retry/Backoff-Strategietypen. Der Betreiber-M takeaway ist, dass ein Agent-SDK zunehmend eine Laufzeit ist: Es braucht Lifecycle-Events, Cleanup-Semantik, Retry-Policy, Kontextdruck-Kontrolle, Timeout-Policy und Inspektionspunkte, damit Anwendungen von langen Tool-Listen, langsamen Modellaufrufen, überdimensionierten Ergebnissen und menschlichen Genehmigungspausen ohne Zustandsverlust wiederhergestellt werden können.

[35:30] Implementierungs-Checkliste für Teams, die diese Updates übernehmen

Wenn Sie diese Woche mit diesen APIs bauen, trennen Sie synchrone Modellaufrufe von Hintergrund-Agent-Jobs. Gemini Deep Research sollte hinter gespeicherten Interaktions-IDs, Stream-Resume-Logik, Tool-Budgets und Dokument-Sicherheitswarnungen laufen. Agents SDK-Upgrades sollten Regression-Tests für Sandbox-Dateiberechtigungen, Archivgrenzen, Git-Subpfade, Telemetrie-Exporter-Fehler, Session-Korruption und Echtzeit-Genehmigungsidentität erhalten. vLLM Serving-Upgrades sollten gegen das genaue Accelerator-, CUDA-Graph-, Cache-Size-, Quantisierungs-, multimodalen und Sequenzlängenprofil, das Sie in der Produktion verwenden, Benchmarken, nicht nur einen einfachen Smoke-Prompt. Strands-style Runtime-Kontrollen sind ein Prompt, um Ihre eigenen Agents um Tool-Call-Lifecycle, Kontextkomprimierung, Graph-Timeout, Cleanup und Retry-Policy zu instrumentieren. Die Bewertung: Gemini Deep Research ist High-Impact, braucht aber Workflow-Wrapping; OpenAI Agents 0.17.1 ist ein starkes Sicherheits- und Zuverlässigkeits-Upgrade; vLLM 0.20.2 ist wichtig für Betreiber, die die betroffenen Modelle bedienen; Strands 1.1 ist am wertvollsten für Teams, die explizite Agent-Laufzeitmechanik statt eines dünnen Modell-Wrappers benötigen.