Gemini Deep Research, Agents SDK Sandbox सीमाएँ, vLLM Kernel Fixes और Strands Runtime Controls — Episode 49 cover art
Episode 49·12 मई 2026·50:25

Gemini Deep Research, Agents SDK Sandbox सीमाएँ, vLLM Kernel Fixes और Strands Runtime Controls

EP049 Google की Gemini Deep Research Agent को Interactions API में गहराई से देखता है, साथ ही OpenAI Agents SDK सैंडबॉक्स और सेशन फिक्स की जानकारी देता है। इसके अलावा, vLLM की DeepSeek V4 सर्विंग पैच और Strands Agents TypeScript रनटाइम कंट्रोल्स पर हुक, MCP, संपीड़न, रिट्राई और मानव हस्तक्षेप की चर्चा की जाती है। Show notes: https://tobyonfitnesstech.com/hi/podcasts/episode-49/

🎧 Listen to Episode

[00:00] जेमिनी डीप रिसर्च एक API-आकार पृष्ठभूमि एजेंट बन जाता है Google का जेमिनी डीप रिसर्च एजेंट अब सामान्य one-shot मॉडल कॉल के बजाय एक preview एजेंट के रूप में जेमिनी इंटरैक्शन्स API के माध्यम से उपलब्ध है। ऑपरेशनल विवरण मायने रखता है: डेवलपर्स deep-research-preview-04-2026 जैसे एजेंट के साथ एक टास्क शुरू करते हैं, पृष्ठभूमि निष्पादन सेट करते हैं, वैकल्पिक रूप से अपडेट स्ट्रीम करते हैं, और परिणाम को एक बहु-चरणीय जॉब के रूप में मानते हैं जो योजना बना सकता है, खोज सकता है, पढ़ सकता है, संश्लेषित कर सकता है और मध्यवर्ती आर्टिफैक्ट्स वापस कर सकता है। स्टैक डिफ़ॉल्ट रूप से Google Search का समर्थन करता है, प्रमाणीकरण के लिए हेडर के साथ रिमोट MCP सर्वर, इमेज और PDF जैसे मल्टीमॉडल इनपुट, रिस्पॉन्स चरणों में जेनरेटेड-इमेज आउटपुट, और जेमिनी 3.1 Pro Preview के माध्यम से मॉडल रूटिंग। बिल्डर्स के लिए, डिज़ाइन पैटर्न चैट कम्प्लीशन की तुलना में एक ड्यूरेबल वर्कफ़्लो के करीब है: इंटरैक्शन ID सेव करें, स्ट्रीम इवेंट्स का उपभोग करें, ड्रॉप्ड कनेक्शन के बाद अंतिम इवेंट ID के साथ फिर से शुरू करें, और मिनट-स्केल विलंबता और टूल-संचालित लागत विचलन की उम्मीद करें। सिफारिश है कि इसे जॉब क्यू, कैंसल पाथ, बजट नियंत्रण, सोर्स-ऑडिट UI, और अविश्वसनीय दस्तावेज़ों के लिए स्पष्ट हैंडलिंग के पीछे रैप करें क्योंकि एजेंट रिसर्च को ग्राउंड करते समय फाइलों में छिपे टेक्स्ट को पढ़ सकता है।

[09:00] OpenAI Agents Python 0.17.1 सैंडबॉक्स, ट्रेसेस, सेशन और रियलटाइम अप्रूवल को मजबूत करता है OpenAI का Agents Python SDK v0.17.1 वह पैच रिलीज़ है जिसे एजेंट ऑपरेटर्स को ध्यान से पढ़ना चाहिए। सैंडबॉक्स फिक्सेस आर्काइव एक्सट्रैक्शन को सीमित करते हैं, Git रिपॉजिटरी सबपाथ्स को मान्य करते हैं, रिपॉजिटरी-रूट एलियासेस को संरक्षित करते हैं, और प्रोवाइडर एरर विवरण सतह पर लाते हैं। ये परिवर्तन विश्वसनीय लोकल सोर्स मैटेरियल और एग्जीक्यूशन एनवायरनमेंट में कॉपी की जाने वाली चीज़ों के बीच की सीमा निर्धारित करते हैं। ट्रेसिंग फिक्सेस शटडाउन को बेस्ट-एफर्ट बनाते हैं, एक्सपोर्टर एरर्स को बैच वर्कर को मारने से रोकते हैं, और नो-ऑप स्पैन ID की रक्षा करते हैं, जो प्रोसेस एक्जिट और आंशिक टेलीमेट्री विफलताओं के दौरान अब्ज़र्वेबिलिटी विश्वसनीयता में सुधार करता है। सेशन फिक्सेस OpenAI कन्वर्सेशन सेशन में होस्टेड टूल ID को संरक्षित करते हैं, करप्ट सेशन रिकॉर्ड्स को स्किप करते हैं, और MongoDB और Redis-बैक्ड स्टोर्स में मेटाडेटा टाइमस्टैम्प को सुसंगत रखते हैं। रियलटाइम फिक्सेस क्वालिफाइड की द्वारा टूल अप्रूवल को स्कोप करते हैं, क्लोज पर वेक इटरेटर्स, ऑडियो आउटपुट पार्ट्स को संरक्षित करते हैं, और कॉलर-स्वामित्व वाले ऑडियो बफर्स को म्यूटेट करने से बचते हैं। व्यावहारिक माइग्रेशन सलाह है कि यदि आप सैंडबॉक्स्ड एजेंट्स या रियलटाइम एजेंट्स चलाते हैं तो अपग्रेड करें, फिर आर्काइव इम्पोर्ट्स, Git मैटेरियलाइज़ेशन, ट्रेस एक्सपोर्ट फेलियर, सेशन रिज्यूम, अप्रूवल रूटिंग और Chat Completions संगतता पर निर्भर किसी भी सख्त स्कीमा पाथ्स का परीक्षण करें।

[18:30] vLLM 0.20.2 सर्विंग विश्वसनीयता को कर्नेल-और-कैश जांच में बदल देता है vLLM v0.20.2 एक कॉम्पैक्ट सर्विंग पैच है, लेकिन यह उन विफलता मोड्स की ओर इशारा करता है जो मायने रखते हैं जब बड़े MoE और मल्टीमॉडल मॉडल वास्तव में डिप्लॉय किए जाते हैं। DeepSeek V4 स्पार्स अटेंशन को Hopper पर निरंतर top-k पाथ को फिर से सक्षम करके और CUDA ग्राफ कैप्चर टाइम पर अधिकतम अनुक्रम लंबाई की परवाह किए बिना memset कर्नेल को निष्पादित करने को सुनिश्चित करके MTP=1 हैंग के लिए एक फिक्स मिलता है। यह एक मॉडल-गुणवत्ता समस्या नहीं बल्कि एक शेड्यूलिंग और कैप्चर-ऑर्डर समस्या है। रिलीज़ में एक V1-इंजन KV कैश मैनेजर एरर को भी ठीक किया गया है जहां KV ब्लॉक्स आवंटित करने में विफल हो सकते थे, जो बिल्कुल वर्ग की बग है जो केवल कुछ अनुक्रम लंबाई, बैच और कैश प्रेशर पैटर्न के तहत दिखाई देती है। gpt-oss के लिए, पैच unpadded hidden-dimension मेटाडेटा को एक फेक MoE op के माध्यम से वायर करता है ताकि MXFP4 torch.compile से बच सके; Qwen3-VL के लिए, यह एक deepstack बाउंड्री चेक को हटाता है जो भारी भार के तहत विफल हो सकता था। बिल्डर्स को इसे एक अनुस्मारक के रूप में मानना चाहिए कि लंबे संदर्भों, मल्टीमॉडल लोड, क्वांटाइज़्ड पाथ्स, CUDA ग्राफ सेटिंग्स और मॉडल-विशिष्ट पार्सर्स के साथ इन्फरेंस अपग्रेड का परीक्षण करें, उससे पहले कि प्रोडक्शन में रोल करें।

[27:00] Strands TypeScript 1.1 एजेंट एप्लिकेशन के लिए रनटाइम नियंत्रण सतह का विस्तार करता है Strands Agents TypeScript v1.1.0 उपयोगी है क्योंकि यह पहले से निहित रनटाइम व्यवहार को अधिक कॉन्फ़िगरेबल और ऑब्ज़र्वेबल बनाता है। हुक फ़ील्ड अब टूल कॉल्स के आसपास और आव्हान के बाद दिखाई देते हैं, वैकल्पिक हुक ऑर्डरिंग और एक AfterTools एंड-टर्न डिसीज़न फ़ील्ड के साथ। MCP सपोर्ट listTools() पेजिनेशन, सर्वर लॉग्स, मेटाडेटा गेटर्स, फेल-ओपन नियंत्रणों और क्लाइंट्स के लिए Symbol.asyncDispose क्लीनअप के माध्यम से अधिक प्रोडक्शन-आकार बन जाता है। कन्वर्सेशन मैनेजर्स को सक्रिय संदर्भ संपीड़न मिलता है, ग्राफ और स्वार्म एक्जीक्यूशन को टाइमआउट मिलते हैं, Bedrock रिक्वेस्ट्स को टाइमआउट नियंत्रण मिलता है, और लोकल एजेंट्स मॉडल पहचान प्रकट करते हैं। रिलीज़ में मानव-इन-द-लूप इंटरप्ट्स, रिज़ल्ट ऑफ़लोड, सामान्यीकृत अमान्य टूल नाम, WASM ब्रिज के लिए स्ट्रक्चर्ड आउटपुट वर्क, WASM कॉन्ट्रैक्ट टेस्ट्स और मॉडल रिट्राई/बैकऑफ़ स्ट्रैटेजी प्रकार भी शामिल हैं। ऑपरेटर टेकअवे यह है कि एक एजेंट SDK तेजी से एक रनटाइम बनता जा रहा है: इसे लाइफसाइकिल इवेंट्स, क्लीनअप सेमांटिक्स, रिट्राई पॉलिसी, संदर्भ-प्रेशर नियंत्रण, टाइमआउट पॉलिसी और निरीक्षण बिंदुओं की आवश्यकता है ताकि एप्लिकेशन्स लंबी टूल सूचियों, धीमे मॉडल कॉल्स, अधिक आकार के परिणामों और मानव अनुमोदन विरामों से बिना स्थिति खोए ठीक हो सकें।

[35:30] इन अपडेट्स को अपनाने वाली टीमों के लिए इम्प्लीमेंटेशन चेकलिस्ट यदि आप इस सप्ताह इन API के साथ बना रहे हैं, तो पृष्ठभूमि एजेंट जॉब्स से सिंक्रोनस मॉडल कॉल्स को अलग करें। जेमिनी डीप रिसर्च को स्टोर्ड इंटरैक्शन ID, स्ट्रीम-रिज्यूम लॉजिक, टूल बजट और दस्तावेज़-सुरक्षा चेतावनियों के पीछे चलना चाहिए। Agents SDK अपग्रेड्स को सैंडबॉक्स फाइल ग्रांट्स, आर्काइव बाउंड्रीज़, Git सबपाथ्स, टेलीमेट्री एक्सपोर्टर फेलियर, सेशन करप्शन और रियलटाइम अनुमोदन पहचान के लिए रिग्रेशन टेस्ट्स मिलने चाहिए। vLLM सर्विंग अपग्रेड्स को उस सटीक एक्सेलेरेटर, CUDA ग्राफ, कैश साइज़, क्वांटाइज़ेशन, मल्टीमॉडल और अनुक्रम-लंबाई प्रोफाइल के खिलाफ बेंचमार्क किया जाना चाहिए जो आप प्रोडक्शन में उपयोग करते हैं, न कि बस एक सिंपल स्मोक प्रॉम्प्ट। Strands-स्टाइल रनटाइम नियंत्रण आपके स्वयं के एजेंट्स को टूल-कॉल लाइफसाइकिल, संदर्भ संपीड़न, ग्राफ टाइमआउट, क्लीनअप और रिट्राई पॉलिसी के आसपास इंस्ट्रूमेंट करने के लिए एक प्रॉम्प्ट है। रेटिंग: जेमिनी डीप रिसर्च हाई-इम्पैक्ट है लेकिन वर्कफ़्लो रैपिंग की आवश्यकता है; OpenAI Agents 0.17.1 एक मजबूत सुरक्षा और विश्वसनीयता अपग्रेड है; vLLM 0.20.2 प्रभावित मॉडल्स की सर्विंग करने वाले ऑपरेटर्स के लिए महत्वपूर्ण है; Strands 1.1 उन टीमों के लिए सबसे मूल्यवान है जिन्हें एक पतले मॉडल रैपर के बजाय स्पष्ट एजेंट रनटाइम मैकेनिक्स की आवश्यकता है।

🎙 Never miss an episode — subscribe now

🎙 Subscribe to OpenClaw Daily