Episode 67: एजेंट स्टैक रिलीज़ राउंडअप: कोडेक्स डेस्कटॉप

एपिसोड 067 — 9 जून, 2026

[00:00] एपिसोड हुक

इस सप्ताह दो ताज़ा agent-stack CLI रिलीज़ आए: OpenAI Codex rust-v0.138.0 में अपग्रेड होकर एक CLI-to-desktop हैंडऑफ़ मैकेनिज़्म आया है जो मैनुअल कॉन्टेक्स्ट ट्रांसफर को खत्म करता है, और Claude Code CLI npm पर 2.1.169 पर पहुंच गया — ये सब एक-दूसरे से 24 घंटों के भीतर। Model Context Protocol वर्किंग ग्रुप ने अपनी July 2026 Release Candidate प्रकाशित की, जो spec को एक stateless आर्किटेक्चर में पिवट करती है और एक first-class extensions फ्रेमवर्क के साथ आती है। Apple WWDC 2026 ने Google Gemini द्वारा संचालित एक कार्यशील Siri AI, एक Shortcuts ऐप जो natural-language विवरणों से automations असेम्बल करता है, और एक one-tap compromised-password अपडेटर दिया। और Alibaba का Qwen3.7 फ्लैगशिप लाइन Qwen3.7-Max के साथ सामने आया — एक 1M-token reasoning मॉडल जिसने 1,000 tool calls चलाए और खुद से पूरी तरह एक kernel को 10x बेहतर किया — Qwen3.7-Plus, multimodal agent वेरिएंट के साथ। चलो इसे सब तोड़ते हैं।

[02:00] OpenAI Codex rust-v0.138.0

OpenAI ने 8 जून, 2026 को Codex rust-v0.138.0 को एक stable release के रूप में शिप किया, GitHub releases page पर rust-v0.138.0 टैग के तहत उपलब्ध। यह rust-v0.137.0 के बाद पहला stable release है जो EP065 में आया था, और यह तीन user-facing फीचर्स के साथ आता है जो सीधे बदलते हैं कि बिल्डर्स Codex के साथ कैसे काम करते हैं।

मुख्य एडिशन /app कमांड और उसके साथ आने वाला desktop handoff मैकेनिज़्म है। macOS और native Windows पर, Codex CLI सेशन में /app चलाने से current thread context को Codex Desktop में ट्रांसफर करता है — existing सेशन टोकन द्वारा authenticated, बिना re-prompt के। Windows workspace लॉन्च अब सीधे Desktop में खुल सकते हैं manul prompt पर न रुकें, जिसका मतलब है कि एक बिल्डर टर्मिनल में टास्क शुरू कर सकता है, महसूस करे कि उन्हें GUI browser या multi-window context की जरूरत है, और state खोए बिना हैंडऑफ़ कर सकता है। ट्रांसपोर्ट local वर्कस्टेशन पर एक named-pipe bus का उपयोग करता है; desktop client CLI के auth store से सेशन टोकन उठाता है।

दूसरा फीचर local image path exposure है। जब Codex एक image जेनरेट करता है या conversation में एक local image अटैच करता है, तो मॉडल अब उस saved file path को एक ephemeral URL के बजाय एक first-class reference के रूप में प्राप्त करता है। पहले, follow-up edits के लिए मॉडल को एक URL ट्रैक करना पड़ता था जो expire हो सकता था या inaccessible हो सकता था; अब मॉडल exact file:// path रखता है और subsequent tool calls में इसे reliably reference कर सकता है। यह image-follow-up-edit वर्कफ़्लो को ठीक करता है जो image generation आने के बाद से हर release में बिगड़ता रहा।

तीसरा फीचर reasoning effort flexibility है। TUI में अब terminals के लिए fallback shortcuts हैं जो Alt key bindings miss करते हैं — non-US keyboard layouts पर एक real problem — और model-defined effort levels उस क्रम में flow होती हैं जिस क्रम में मॉडल उन्हें advertise करता है, client द्वारा re-ranked नहीं की जातीं। नतीजा Codex deployments में deterministic reasoning effort selection है।

दो bug fixes real operational pain को address करते हैं: high-latency environments में clipboard race conditions (एक problem जब Codex remote SSH या high-network-jitter connections पर चलता है) और long-running sessions के दौरान intermittent authentication failures (एक सेशन टोकन expiry edge case जो mid-task में re-auth prompts trigger करता था)। दोनों dramatic नहीं हैं, लेकिन दोनों OpenAI developer forum में user-reported थे।

Operator surfaces that change: /app कमांड CLI में नया है; image path handling model interface layer में नया है; reasoning effort fallback shortcuts TUI में नए हैं। कोई नए config flags या environment variables नहीं हैं। Migration risk कम है — यह एक additive release है backward-compatible defaults के साथ।

एजेंट अब क्या कर सकते हैं जो पहले असंभव या भंगुर थे: टास्क के बीच में बिना कॉन्टेक्स्ट खोए एक CLI सत्र को डेस्कटॉप क्लाइंट को सौंपना; फॉलो-अप एडिट में अनेक राउंड में जनरेट की गई इमेज फ़ाइल का विश्वसनीय रूप से संदर्भ देना; गैर-अमेरिकी कीबोर्ड लेआउट पर बिना वर्कअराउंड के रीज़निंग प्रयास स्तर चुनना।

[06:30] Claude Code CLI 2.1.169

Anthropic का Claude Code CLI संस्करण 2.1.169 को 8 जून, 2026 को 18:11:20 UTC पर npm पर प्रकाशित किया गया, जो latest dist-tag ट्रैक में नवीनतम प्रविष्टि बन गया। stable dist-tag 2.1.153 पर बना हुआ है, जिससे दोनों ट्रैक के बीच 16 पैच संस्करणों का अंतर है। ऑपरेटरों के लिए, इसका अर्थ है: यदि आप latest पर हैं, तो आप पहले से 2.1.169 पर हैं यदि आपने 8 जून के बाद अपडेट किया है; यदि आप stable पर हैं, तो आप 2.1.153 पर हैं और अंतर जानबूझकर है — stable ट्रैक रिग्रेशन के लिए curate किया गया है।

2.1.168 से 2.1.169 तक का डेल्टा 24 घंटे के भीतर एक एकल-पैच प्रकाशन है, जो एक संकुचित रिग्रेशन के लिए hotfix का संकेत देता है। npm मेटाडेटा इस रिलीज़ के लिए नए public API सतहों या config फ्लैग्स का विज्ञापन नहीं करता। तीव्र पुनरावृत्ति cadence — EP064 और EP067 के बीच पांच रिलीज़ — 2.1.16x श्रृंखला की विशेषता रही है जो आंतरिक स्थिरता-सुधार और tool-call विश्वसनीयता पर ध्यान केंद्रित करती है।

ऑपरेटर सतहें: npm पैकेज @anthropic-ai/claude-code latest टैग पर। कोई नए CLI फ्लैग या config फ़ाइलें नहीं। माइग्रेशन जोखिम न्यूनतम है — यह एक अच्छी तरह से स्थापित रिलीज़ ट्रैक में पैच-स्तर का अपडेट है।

एजेंट अब क्या कर सकते हैं: 2.1.169 पैच संभवतः 2.1.168 के शिप होने के बाद से रिपोर्ट किए गए एक विशिष्ट tool-call एज केस को संबोधित करता है। latest पर ऑपरेटरों को अपडेट करना चाहिए और किसी भी सत्र-बाइंडिंग विसंगतियों के लिए निगरानी रखनी चाहिए; यदि कोई नहीं दिखता, तो रिलीज़ एक साफ स्थिरता पैच है।

[09:00] MCP July 2026 Release Candidate

Model Context Protocol वर्किंग ग्रुप ने 8 जून, 2026 को July 28, 2026 Release Candidate प्रकाशित किया, जो MCP के इतिहास में सबसे महत्वपूर्ण आर्किटेक्चरल परिवर्तन है। मुख्य बदलाव एक stateful सत्र मॉडल से एक stateless ट्रांसपोर्ट में है जिसके ऊपर वैकल्पिक stateful एप्लिकेशन परत दी गई है। पिछले मॉडल में, MCP क्लाइंट सर्वर साइड पर एक सत्र स्टोर बनाए रखते थे — एक sticky-session बाधा जिसने लोड बैलेंसर पर session affinity के बिना क्षैतिज स्केलिंग को असंभव बना दिया। RC इस सत्र स्टोर को हटाकर सभी सत्र संदर्भ को स्वयं request payload में ले जाता है, ताकि कोई भी MCP क्लाइंट बिना किसी सत्र स्टोर की आवश्यकता के किसी भी सर्वर रेप्लिका को रूट कर सके।

सर्वर-टू-क्लाइंट अनुरोधों को पुनर्गठित किया गया है। पहले, एक सर्वर केवल sampling callback के माध्यम से क्लाइंट को डेटा पुश कर सकता था — एक संकुचित, विशेष पथ। RC JSON-RPC परत में एक सामान्य server_request आदिम जोड़ता है, जो सर्वरों को क्लाइंट poll के बिना prompts, संसाधन अपडेट, या टूल परिणाम पुश करने में सक्षम बनाता है। यह आर्किटेक्चरल रूप से HTTP में SSE (Server-Sent Events) के समान है — एक सर्वर-शुरू किया गया स्ट्रीम जिसमें क्लाइंट-साइड सब्सक्रिप्शन है।

Extensions फ्रेमवर्क अब first-class है। नई क्षमताएं opt-in extensions के रूप में अपने स्वयं के versioned namespace के साथ शिप होती हैं, extension रूप में स्थिर होती हैं, और केवल तभी core spec में तब जाती हैं जब वे व्यापक अपनाना अर्जित करती हैं। MCP Apps extension (SEP-1865) सर्वरों को sandboxed iframes में प्रस्तुत किए गए इंटरैक्टिव HTML इंटरफेस शिप करने देता है जिसमें एक नियंत्रित postMessage ब्रिज है — एक सर्वर-रेंडर UI पैटर्न जो एजेंट टूलिंग में कस्टम prompt-injection UI को बदल सकता है। Tasks extension प्रयोगात्मक से एक नामित extension में स्नातक होता है।

तीन पूर्व में प्रायोगिक सुविधाएं नई सुविधा जीवनचक्र नीति (SEP-2577) के तहत बहिष्कृत हैं। उपकरणों के लिए पूर्ण JSON Schema 2020-12 सत्यापन अब अनुशंसित नहीं बल्कि आवश्यक है।

ऑपरेटर सतहें: MCP सर्वर इम्प्लीमेंटर्स को अपने कोड की सर्वर-साइड सेशन स्थिति के लिए जांच करनी चाहिए और इसे क्लाइंट या बाहरी स्टोर में माइग्रेट करना चाहिए। MCP क्लाइंट होस्ट को नए server_request प्रिमिटिव को संभालने के लिए अपडेट करना चाहिए। एक्सटेंशन फ्रेमवर्क का मतलब है कि नई क्षमताएं स्पेक परिवर्तनों के बजाय ऑप्ट-इन जोड़ों के रूप में आएंगी — नए MCP कार्यक्षमता के प्रमुख संकेतकों के रूप में एक्सटेंशन संस्करणों को देखें।

एजेंट अब क्या कर सकते हैं जो पहले असंभव था: स्टिकी सेशन के बिना क्षैतिज रूप से MCP सर्वर इन्फ्रास्ट्रक्चर को स्केल करें; पोलिंग के बिना सर्वर-प्रारंभित पुश प्राप्त करें; एजेंट सेशन के भीतर इंटरैक्टिव कंपोनेंट्स के रूप में सर्वर-रेंडर्ड UI सतहों (MCP Apps) का उपयोग करें।

[13:00] Apple WWDC 2026 — Siri AI, Gemini, और Natural-Language Shortcuts

Apple का WWDC 2026 keynote 8 जून को कंपनी के इतिहास में सबसे पर्याप्त AI अपडेट लेकर आया। मुख्य आकर्षण Siri AI है — iOS 27, iPadOS 27, और macOS 27 में एकीकृत एक पूर्ण प्राकृतिक-भाषा एजेंट — क्लाउड इंफरेंस के लिए Google Gemini साझेदारी द्वारा संचालित और A19 Pro और M4 चिप परिवारों पर on-device Apple Intelligence चल रहा है। साझेदारी वास्तुशिल्प रूप से एक दो-स्तरीय इंफरेंस स्टैक है: हल्के, गोपनीयता-संवेदनशील कार्य on-device चलते हैं; जटिल तर्क अनुरोध Google के Gemini API पर रूट होते हैं।

नया Shortcuts ऐप प्राकृतिक-भाषा वर्कफ़्लो विवरण स्वीकार करता है। एक उपयोगकर्ता "जब मैं काम से निकलूं तो अपने पार्टनर को सूचित करें और उन्हें मेरा ETA दें" टाइप करता है और सिस्टम इसको सिस्टम और ऐप क्रियाओं के अनुक्रम में विघटित करता है — संपर्कों से संग्रहीत पता खींचना, Apple Maps के माध्यम से यात्रा समय की गणना करना, Messages के माध्यम से संदेश भेजना — फिर परिणामी ऑटोमेशन ग्राफ़ को असेंबल करता है और सहेजता है। यह वही अंतर्निहित प्रिमिटिव सेट है जो मौजूदा Shortcuts ऑटोमेशन लेयर को शक्ति प्रदान करता है, अब ड्रैग-एंड-ड्रॉप UI के बजाय प्राकृतिक भाषा के माध्यम से सुलभ है।

Safari को AI टैब प्रबंधन और पेज-बदलाव मॉनिटर मिलता है जो ट्रैक किए गए पेज के अपडेट होने पर अलर्ट करता है — कीमतों, समाचार कहानियों, या किसी भी समय-संवेदनशील वेब सामग्री की निगरानी के लिए उपयोगी। वन-टैप कंप्रोमाइज़्ड पासवर्ड अपडेटर AI का उपयोग करके Safari ऑटोमेशन के माध्यम से लॉगिन फ़्लो तक पहुंचता है, बिना मैन्युअल उपयोगकर्ता इनपुट के बहु-चरण क्रेडेंशियल परिवर्तन प्रक्रियाओं को संभालता है। Messages फ़ोटो को टेक्स्ट विवरण द्वारा सतहित करता है, और Calendar सक्रिय कॉल के दौरान ईमेल से खींचे गए लोगों और समय संदर्भ के साथ प्राकृतिक-भाषा इवेंट निर्माण स्वीकार करता है।

ऑपरेटर सतहें: Shortcuts प्राकृतिक-भाषा प्लानर वर्कफ़्लो ऑटोमेशन के लिए एक नई सतह है जिसे अब गैर-तकनीकी उपयोगकर्ता सीधे लेखन कर सकते हैं। Gemini साझेदारी का मतलब है कि iOS में एक दो-स्तरीय इंफरेंस स्टैक है — गोपनीयता के लिए on-device, जटिल तर्क के लिए क्लाउड — वास्तुशिल्प रूप से Claude Code के समान जो स्थानीय और रिमोट मॉडल के बीच रूटिंग करता है। वन-टैप पासवर्ड अपडेटर संभवतः पहली तृतीय-पक्ष-सक्षम AI क्रियाओं में से एक होने वाला है क्योंकि Apple Shortcuts API खोलता है।

एजेंट अब क्या कर सकते हैं जो पहले असंभव था: हाथ से जोड़ने के बजाय सादे भाषा में वर्णन करके ऑटोमेशन बनाना; AI-संचालित ब्राउज़र ऑटोमेशन का उपयोग करके एकल टैप से समझौता किए गए पासवर्ड अपडेट करना; पोलिंग या मैन्युअल रिफ्रेश के बिना वेब पेज परिवर्तनों को ट्रैक करना।

[17:00] Qwen3.7-Max — Alibaba का Agentic Flagship

अलीबाबा ने 21 मई, 2026 को Qwen3.7-Max को Qwen 3.7 पीढ़ी के मालिकाना टेक्स्ट-ओनली रीजनिंग फ्लैगशिप के रूप में जारी किया, जो Alibaba Cloud Model Studio के माध्यम से केवल API पर उपलब्ध है। मॉडल को विशेष रूप से लंबे चलने वाले एजेंट वर्कलोड के लिए डिज़ाइन किया गया था जिसमें उन्नत रीजनिंग और कोडिंग क्षमताएं हैं। एक आंतरिक परीक्षण में, Qwen3.7-Max ने स्वायत्त रूप से 1,000 से अधिक टूल कॉल और पुनरावृत्ति कोड संशोधन किए ताकि T-Head ZW-M890 PPU पर SGLang Extend Attention कर्नेल को अनुकूलित किया जा सके — यह हार्डवेयर आर्किटेक्चर मॉडल के प्रशिक्षण डेटा में नहीं था। अनुकूलन प्रक्रिया ने एक बहु-घंटे के रन में बेसलाइन की तुलना में अनुमान गति में लगभग 10 गुना सुधार किया, जिसमें मॉडल ने 1,000 से अधिक चरणों में अपना कर्नेल कार्यान्वयन लिखा, निष्पादित, मापा और संशोधित किया।

Qwen3.7-Max में 1M-टोकन संदर्भ विंडो है और यह Anthropic-संगत API एंडपॉइंट प्रदान करता है, जिसका अर्थ है कि यह उसी टूल-कॉल इंटरफ़ेस के साथ काम करता है जिसका Claude Code उपयोग करता है। एकीकरण के लिए Alibaba Cloud के Anthropic-संगत API एंडपॉइंट पर इंगित करने वाले तीन-पंक्ति कॉन्फ़िगरेशन परिवर्तन की आवश्यकता है — कोई मालिकाना SDK आवश्यक नहीं है। मॉडल ओपन-सोर्स नहीं है; Max टियर किसी भी Qwen पीढ़ी में कभी ओपन-सोर्स नहीं रहा है।

ऑपरेटर सतहें: Alibaba Cloud Model Studio पर Anthropic-संगत API एंडपॉइंट। कोई स्थानीय परिनियोजन विकल्प नहीं। 1,000-चरण स्वायत्त डेमो लंबे-क्षितिज एजेंटिक क्षमता का मूल्यांकन करने के लिए एक बेंचमार्क है — उत्पादन एजेंट वर्कलोड पर प्रतिबद्ध होने से पहले मॉडल की तुलना के लिए उपयोगी।

एजेंट अब क्या कर सकते हैं जो पहले असंभव था: एक एकल मॉडल पर 1,000+ टूल-कॉल चरणों के साथ निरंतर बहु-घंटे के एजेंटिक कार्य चलाएं; एजेंट टूलिंग बदले बिना Claude Opus 4.7 के साथ उच्च-संदर्भ रीजनिंग मॉडल का उपयोग करें।

[20:00] Qwen3.7-Plus — मल्टीमॉडल एजेंट मॉडल

Qwen3.7-Plus Qwen 3.7 पीढ़ी का संतुलित मल्टीमॉडल वेरिएंट है, जो Alibaba Cloud Model Studio के माध्यम से API के माध्यम से उपलब्ध है और OpenRouter पर सूचीबद्ध है। यह टेक्स्ट, छवि और वीडियो इनपुट को टेक्स्ट आउटपुट के साथ स्वीकार करता है, जो कुशल रैखिक अटेंशन को स्पार्स मिक्सचर-ऑफ-एक्सपर्ट्स रूटिंग के साथ जोड़ने वाले हाइब्रिड आर्किटेक्चर का उपयोग करता है जिससे कम सक्रिय पैरामीटर गणना में मजबूत स्केलेबिलिटी मिलती है। 1M-टोकन संदर्भ विंडो सभी इनपुट मोडलिटी में साझा की जाती है। प्रारंभिक तृतीय-पक्ष परीक्षण में ब्राउज़र-आधारित वर्कफ़्लो, OpenCode कोडिंग कार्य, C++ गेम जनरेशन, फ्रंटएंड डिज़ाइन, फ्लाइट सिमुलेशन और इंटरैक्टिव वेबसाइट जनरेशन शामिल थे।

मॉडल एक अलग विज़न एनकोडर पाइपलाइन के बिना मूल रूप से मल्टीमॉडल इनपुट को संभालता है, जिससे छवि-समझ कार्यों के लिए टूल-कॉल ओवरहेड कम होता है। यह आर्किटेक्चरल रूप से महत्वपूर्ण है: एक एकल मॉडल विज़न और भाषा रीजनिंग को संभालता है, जिसका अर्थ है कि एजेंट एक स्क्रीनशॉट, एक कोड फ़ाइल और एक प्राकृतिक-भाषा निर्देश को बिना अलग-अलग विज़न और भाषा मॉडल के माध्यम से रूटिंग के एक ही संदर्भ विंडो में प्रोसेस कर सकते हैं।

ऑपरेटर सतहें: Alibaba Cloud Model Studio और OpenRouter के माध्यम से API। कोई ओपन-वेट रिलीज़ नहीं। हाइब्रिड MoE आर्किटेक्चर का अर्थ है कि यह फ्रंटियर-स्तरीय रीजनिंग को बनाए रखते हुए कमोडिटी GPU बजट पर कुशलतापूर्वक चल सकता है।

एजेंट अब क्या कर सकते हैं जो पहले असंभव था: मल्टीमॉडल एजेंट कार्यों को संभालें — स्क्रीन समझ, दस्तावेज़ पार्सिंग, GUI ऑटोमेशन — अलग-अलग विज़न और भाषा मॉडल की पाइपलाइन के बजाय एक एकल एकीकृत मॉडल के साथ; एक एकल संदर्भ विंडो में लंबे वीडियो ट्रांसक्रिप्ट और बड़े कोडबेस को प्रोसेस करें।

[23:00] व्यावहारिक कतार

rust-v0.138.0 तक Upgrade Codex को अपग्रेड करें और /app को आज़माएं ताकि CLI सत्र को डेस्कटॉप क्लाइंट को सौंपा जा सके — यह मल्टी-मॉनिटर सेटअप पर विशेष रूप से उपयोगी है। Claude Code CLI को npm update -g @anthropic-ai/claude-code के माध्यम से अपडेट करें यदि आप latest टैग पर हैं; यदि आपको पूर्वानुमेयता की आवश्यकता है तो stable पर पिन करें। जुलाई 2026 RC के अंतिम होने से पहले अपने MCP सर्वर कार्यान्वयन का ऑडिट करें। जब बीटा ड्रॉप हो तो iOS 27 पर नए Shortcuts नेचुरल-लैंग्वेज प्लानर को एक्सप्लोर करें। लॉन्ग-हॉरिज़न एजेंट टास्क के लिए तीन-पंक्ति Anthropic-संगत API कॉन्फ़िगरेशन के साथ Claude Code में Qwen3.7-Max जोड़ें। विज़न-लैंग्वेज एजेंट वर्कलोड पर Claude Opus 4.7 के मल्टीमॉडल ड्रॉप-इन के रूप में Qwen3.7-Plus का मूल्यांकन करें।