Episode 55: Codex 0.132.0, Claude Code 2.1.145, Gemini

Codex 0.132 और Claude Code 2.1 आज AgentStack Daily में अग्रणी हैं क्योंकि ये SDK प्रमाणीकरण, पुनः प्रारंभित ऑटोमेशन स्कीमा, लाइव-एजेंट JSON, ट्रेस आईडी, प्लगइन पूर्वावलोकन और अनुमति कठोरता जैसे ठोस ऑपरेटर सतहों को स्थानांतरित करते हैं।

[00:00] उद्घाटन - बदली हुई ऑपरेटर सतहों से प्रारंभ करें NOVA और ALLOY व्यावहारिक परिवर्तनों पर खुलते हैं। Codex के पास अब प्राथमिक-श्रेणी Python SDK प्रमाणीकरण है और आसान turn APIs हैं, जबकि Claude Code लाइव सेशन स्थिति को JSON के रूप में उजागर करता है और ट्रेस में एजेंट लाइनेज जोड़ता है। यह सिर्फ एक संस्करण-संख्या अपडेट नहीं है। यह बदलता है कि बिल्डर्स कोडिंग एजेंटों को कैसे स्क्रिप्ट करते हैं, ऑटोमेशन फिर से शुरू करते हैं, पृष्ठभूमि कार्य का निरीक्षण करते हैं, और सुरक्षित शेल व्यवहार पकड़ते हैं जब तक वह एक घटना न बन जाए।

[02:30] रिलीज रीडआउट - Codex 0.132 इस Codex रिलीज़ का सबसे बड़ा API परिवर्तन Python SDK auth सतह है। एक Python क्लाइंट अब API-की लॉगिन, ChatGPT ब्राउज़र लॉगिन, डिवाइस-कोड फ्लो, खाता निरीक्षण और लॉगआउट को संभाल सकता है बिना auth स्थिति को CLI रैपर में आउटसोर्स किए। यह नोटबुक, CI जॉब्स, आंतरिक टूल्स और होस्टेड डेवलपर पोर्टल्स के लिए महत्वपूर्ण है जिन्हें स्क्रीन-स्क्रैपिंग टर्मिनल व्यवहार के बजाय एक वास्तविक प्रोग्रामेटिक वर्कफ्लो के रूप में Codex turns शुरू करने की आवश्यकता है।

Turn API भी छोटे ऑटोमेशन के लिए आसान हो जाती है। टेक्स्ट-ओनली turns एक सादा स्ट्रिंग पास कर सकते हैं, और हैंडल-आधारित रन अब एक समृद्ध TurnResult लौटाते हैं जिसमें एकत्रित आइटम, टाइमिंग और उपयोग शामिल हैं। यह एजेंट ऑर्केस्ट्रेशन कोड को एक बेहतर रिटर्न ऑब्जेक्ट देता है: क्या हुआ, इसमें कितना समय लगा, इसकी लागत कितनी थी, और कौन से आर्टिफैक्ट वापस आए। व्यावहारिक नुस्खा सीधा है: नियंत्रित टूल एंट्री पॉइंट्स के लिए Python SDK का उपयोग करें, स्थानीय रेपो कार्य के लिए CLI रखें, और टेलीमेट्री या डाउनस्ट्रीम निर्णय की आवश्यकता होने पर TurnResult कैप्चर करें।

codex exec resume --output-schema परिवर्तन ड्यूरेबल वर्कफ्लो के लिए ध्यान देने योग्य है। एक सेशन फिर से शुरू करने से वह संदर्भ बना रहता है जिसने एजेंट को उपयोगी बनाया, लेकिन आउटपुट अभी भी एक स्कीमा तक सीमित हो सकता है। यह उन ऑटोमेशन के लिए अनुपस्थित पुल है जिन्हें मेमोरी और मशीन-पठनीय आउटपुट दोनों की आवश्यकता है: इश्यू ट्रायज, माइग्रेशन स्थिति, टेस्ट-रिज़ल्ट सारांश, या दैनिक कोड-हेल्थ रिपोर्ट वही थ्रेड फिर से शुरू कर सकते हैं और अभी भी मान्य JSON लौटा सकते हैं।

Codex रिमोट और ऐप-सर्वर व्यवहार को भी कठोर बनाता है। रिमोट एक्जीक्यूटर रजिस्ट्रेशन मानक Codex auth का उपयोग कर सकता है एक अलग रजिस्ट्री क्रेडेंशियल पथ के बजाय। रिमोट सेशन websocket कनेक्शन जीवित रखते हैं और फिर से रेपो-सापेक्ष diff पथ दिखाते हैं, जो लंबे चलने वाले रिमोट कार्य को कम संभावना बनाता है कि वह मृत दिखे या अपठनीय पैच प्रस्तुत करे। ऐप-सर्वर turns अनुरोधित छवि फिडेलिटी को संरक्षित करते हैं, मूल-रिज़ॉल्यूशन स्थानीय छवियों सहित, उपयोगकर्ता इनपुट और छवि-निर्माण उपकरणों में। यह तब उपयोगी है जब एक एजेंट स्क्रीनशॉट, UI रिग्रेशन, आरेख या जेनरेट किए गए विज़ुअल आर्टिफैक्ट का निरीक्षण कर रहा है जहां कम-रिज़ॉल्यूशन संदर्भ उत्तर बदलता है।

जोखिम नोट्स संचालन संबंधी हैं। गोल निरंतरताएं अब उपयोग सीमाओं या दोहराए गए अवरोधों पर रुकती हैं, इसलिए एजेंटों को एक फंसे हुए लूप में कम टोकन जलाने चाहिए। मल्टी-सेशन TUI रीप्ले इन-प्रोग्रेस MCP कॉल को सक्रिय के रूप में चिह्नित रखता है, और अलिप्ति उत्तर उस थ्रेड को वापस आते हैं जिसने उन्हें अनुरोध किया था, जो क्रॉस-थ्रेड भ्रम को कम करता है। विंडोज इंस्टॉल codex doctor npm-install डिटेक्शन और MSVC बायनरीज़ प्राप्त करते हैं जिन्हें अलग VC++ रनटाइम DLLs की आवश्यकता नहीं होती। अपग्रेड टेस्ट Python लॉगिन/लॉगआउट, एक टेक्स्ट-ओनली turn, TurnResult फ़ील्ड, एक स्कीमा-सीमित रिज्यूम, रिमोट websocket स्थिरता, छवि-विवरण संरक्षण और विंडोज डॉक्टर आउटपुट को कवर करना चाहिए यदि वह प्लेटफॉर्म मायने रखता है।

[17:00] रिलीज रीडआउट - Claude Code 2.1 यह Claude Code अपडेट पिछले पैच की तुलना में छोटा है, लेकिन यह ठीक वहीं लैंड होता है जहां ऑपरेटर्स को इसकी आवश्यकता है: लाइव इन्वेंट्री, ट्रेसिबिलिटी, प्लगइन निरीक्षण और शेल सुरक्षा। claude agents --json एजेंट व्यू को एक स्क्रिप्टेबल इंटरफ़ेस में बदल देता है। स्टेटस बार, tmux-रेसर्जेक्ट फ्लो, सेशन पिकर्स, डैशबोर्ड और वॉचडॉग अब टर्मिनल UI पार्स किए बिना लाइव Claude सेशन क्वेरी कर सकते हैं। टर्मिनल टैब टाइटल प्रतीक्षित-इनपुट काउंट भी दिखाता है, इसलिए एक पृष्ठभूमि एजेंट जिसे मानव ध्यान की आवश्यकता है वह TUI के बाहर दृश्यमान है।

ट्रेसिंग अपडेट पृष्ठभूमि सबएजेंट्स चलाने वाली टीमों के लिए महत्वपूर्ण है। claude_code.tool OpenTelemetry स्पैन अब agent_id और parent_agent_id शामिल करते हैं, और ट्रेस पेरेंटिंग ठीक कर दी गई है ताकि पृष्ठभूमि सबएजेंट स्पैन उस Agent टूल स्पैन के नीचे नेस्ट हों जिसने उन्हें भेजा। यह ऑब्ज़र्वेबिलिटी सिस्टम को एक वास्तविक लाइनेज ट्री देता है: मुख्य सेशन, भेजा गया एजेंट, नेस्टेड टूल कॉल, परिणाम। "Claude ने एक टूल का उपयोग किया" और "इस विशिष्ट पृष्ठभूमि वर्कर ने इस पैरेंट टर्न के बाद धीमी चीज़ की" में यही अंतर है।

स्टेटस-लाइन JSON अब जब पता चले तो GitHub रिपॉजिटरी और PR जानकारी शामिल करता है। यह PR कार्य के दौरान स्थानीय प्रॉम्प्ट्स, टर्मिनल स्टेटस लाइन और बाहरी मॉनिटरिंग को अधिक उपयोगी बनाता है: एजेंट बिना हर बार एक अलग gh प्रोब के उस रिपॉजिटरी और पुल रिक्वेस्ट को उजागर कर सकता है जिसके अंदर वह काम कर रहा है। /plugin डिस्कवर और ब्राउज़ स्क्रीन अब इंस्टॉलेशन से पहले प्लगइन के कमांड, एजेंट्स, स्किल्स, हुक्स और MCP/LSP सर्वर दिखाती हैं। यह एक सुरक्षा और एर्गोनॉमिक्स सुधार है: बिल्डर्स प्लगइन को रनटाइम में लाने से पहले देख सकते हैं कि एक प्लगइन क्या योगदान देता है।

अनुमति फिक्स को स्पष्ट रूप से जगह मिलनी चाहिए। Claude Code ने एक बाइपास को ठीक किया जहाँ Bash कमांड में non-allowlisted एनवायरनमेंट वेरिएबल्स के बेयर वेरिएबल असाइनमेंट स्वचालित रूप से स्वीकृत हो रहे थे। Shell approval सिस्टम अक्सर कमांड नामों पर ध्यान केंद्रित करते हैं, लेकिन एनवायरनमेंट वेरिएबल्स टूल्स को रीडायरेक्ट कर सकते हैं, डेटा लीक कर सकते हैं, auth व्यवहार बदल सकते हैं, या execution paths को alter कर सकते हैं। अपग्रेड के बाद, एक harmeless non-allowlisted वेरिएबल असाइनमेंट के साथ allowlist policy टेस्ट करें और पुष्टि करें कि यह silently approving करने के बजाय prompt करता है।

अन्य फिक्सेस रोज़ाना के उपयोग को सुगम बनाते हैं: MCP prompt slash commands अब raw server validation errors के बजाय missing-argument usage दिखाते हैं; resize/refocus अब spinner और elapsed time को freeze नहीं करता; Windows PowerShell resume hints सही command separator का उपयोग करते हैं; voice push-to-talk agent view reply pane में काम करता है; task lists स्थिर क्रम में render होते हैं; non-ASCII Agent Teams नाम अब API headers को poison नहीं करते; /review एक deprecated Classic Projects GraphQL query को drop करता है; plugin validation skills: के तहत फाइल पाथ catch करता है; Read truncated partial view लौटाता है whole-file token overflow पर hard-fail करने के बजाय; और forked skills infinite self-reinvocation loops रोकती हैं।

[29:00] Google Gemini - Gemini 3.5 Flash GA और Managed Agents Google के 19 May Gemini API अपडेट में gemini-3.5-flash को GA Gemini 3.5 Flash model के रूप में release किया और Gemini API में Managed Agents पेश किया। builders के लिए उपयोगी हिस्सा सिर्फ model name नहीं है। Managed Agents hosted agent execution को API surface में बदल देता है: एक कॉल agent provision करता है जो Antigravity harness द्वारा संचालित है, उसे isolated Linux environment देता है, टूल्स का उपयोग करने और कोड execute करने देता है, और follow-up interactions को files और state intact के साथ resume करने देता है।

यह agent infrastructure के लिए build-vs-buy line को बदलता है। अगर आपके agent को code execution, file state, और multi-turn continuity चाहिए, तो आपको अब अपना खुद का sandbox pool, persistence layer, और harness protocol वायर करने से शुरू नहीं करना होगा। आप Interactions API को control plane के रूप में उपयोग कर सकते हैं, instructions और markdown skills के साथ agent customize कर सकते हैं, और बाद में तय कर सकते हैं कि workload managed environment में है या self-hosted harness में।

tradeoff control है। Managed agents infrastructure friction को कम करते हैं, लेकिन execution boundary Google's hosted environment है। SDK या local agent runner के माध्यम से self-hosting network, filesystem, policy, secrets, और observability पर अधिक control रखता है। व्यावहारिक मार्गदर्शन: prototypes, bounded tool tasks, और workloads के लिए Managed Agents का उपयोग करें जहाँ hosted isolated Linux environment स्वीकार्य है; self-hosted harnesses का उपयोग तब करें जब agent को private network reachability, custom sandbox rules, या deep local tool integration चाहिए।

Gemini 3.5 Flash इसलिए matter करता है क्योंकि agent runtimes latency-sensitive हैं। एक model जो repeated tool-planning loops के लिए पर्याप्त fast है और coding tasks के लिए strong enough है, यह बदल देता है कि आप एक managed interaction में कितना काम डाल सकते हैं before operator experience slow महसूस हो। cost और latency tiers, tool-call behavior, state persistence semantics, और यह देखें कि follow-up calls execution trace के अधिकांश भाग को hide किए बिना working files कितनी अच्छी तरह preserve करती हैं।

[39:30] Chrome WebMCP - browser-agent tools become explicit WebMCP Chrome से web standard का proposal है जो browser agents को structured tools expose करने के लिए है। agent से हर बटन और form field के उद्देश्य का अनुमान लगाने के बजाय, एक page JavaScript के माध्यम से tools register कर सकता है या HTML forms को declarative रूप से annotate कर सकता है। टूल JSON Schema inputs और outputs carry करता है, page state share कर सकता है, और visible तरीके से user's browser context में execute होता है।

यह computer-use reliability के लिए सही दिशा है। Pixel और DOM actuation flexible है, लेकिन यह ambiguous है: agent guess करता है कि कौनsa control किस intent से मैप करता है, और हर extra click एक failure point है। WebMCP high-value actions को explicit बनाता है। एक travel site multi-city booking tool expose कर सकती है। एक support app diagnostic tool expose कर सकती है। एक settings page एक सुरक्षित "run checks" command expose कर सकती है जो UI से alone discover करना मुश्किल होगा।

Security boundary design का हिस्सा है। WebMCP tools Permissions Policy द्वारा gated है जो same-origin top-level contexts के लिए default है और cross-origin iframes को allow="tools" के साथ opt in करने पर ही enable करता है। Sensitive actions user interaction के साथ confirmation dialog request कर सकती हैं। टूल अभी भी visible page या webview में चलता है, जिसका मतलब है कि default रूप से कोई headless backdoor path नहीं है। यह एक limitation है, लेकिन एक trust property भी है: users site, brand, और action surface देख सकते हैं।

builders के लिए, test path स्पष्ट है। Chrome local flag enable करें या Chrome 149 origin trial का उपयोग करें जब available हो, एक imperative tool या एक declarative form annotation जोड़ें, tight JSON Schema define करें, Model Context Tool Inspector extension के साथ टेस्ट करें, और verify करें कि टूल structured errors return करता है जिनसे agent recover कर सकता है। सबसे बड़ा watch item portability है: WebMCP proposed है, finished नहीं, इसलिए tool contracts छोटे रखें और अपने पूरे agent UX को एक draft API पर bet लगाने से बचें।

[48:00] Google AI Studio - Workspace, Antigravity export, और Android generation Google AI Studio का I/O update मायने रखता है क्योंकि यह कई app-building surfaces को जोड़ता है जो सामान्यतः अलग रहते हैं। Generated apps Workspace APIs के साथ integrate कर सकते हैं, projects Antigravity में export हो सकते हैं, और mobile build mode native Android apps generate कर सकता है in-browser emulator, ADB device flows, और Play Internal Test Track publishing के साथ।

Builder relevance continuity में है। एक prototype AI Studio में शुरू हो सकता है, real Workspace data को touch कर सकता है, deeper agentic coding के लिए Antigravity में जा सकता है, और Android test track में बिना developer को हर boundary पर context rebuild करने के continue कर सकता है। यह एक chat prototype से अलग workflow है जो एक zip file produce करता है और product path का बाकी हिस्सा manual work पर छोड़ देता है।

सावधानी governance में है। Workspace integration का मतलब real data और real permissions है, इसलिए generated apps को explicit OAuth scope review, test-user controls, और prototype credentials से production credentials तक स्पष्ट handoff की जरूरत है। Android generation को भी normal mobile hygiene की जरूरत है: package identity, signing, internal distribution, device testing, और telemetry। उपयोगी mental model यह नहीं है "AI Studio replaces the app pipeline." यह है "AI Studio now reaches farther into the app pipeline before the handoff."

[55:30] Chrome DevTools for agents - browser verification becomes part of coding work Chrome DevTools for agents coding agents को एक browser verification lane देता है: managed browser handoff, responsive emulation, geolocation emulation, active Chrome-session debugging, और Lighthouse automation। यह WebMCP के आस-पास है, लेकिन यह एक अलग problem solve करता है। WebMCP pages को explicit tools expose करने के बारे में है। DevTools for agents coding agent को उस page को verify करने देने के बारे में है जिसे उसने अभी बदला है।

यह distinction मायने रखता है। एक code agent tests pass कर सकता है और फिर भी broken layout, console error, failed network request, inaccessible control, या slow page ship कर सकता है। Browser handoff agent को real runtime surface inspect करने देता है source code पर रुकने के बजाय। Responsive और geolocation emulation verification को desktop-only कम करते हैं। Lighthouse इसे performance और accessibility issues के लिए एक structured audit path देता है।

Teams के लिए, यह UI work को एक tighter loop की ओर धकेलता है: code edit करें, app run करें, real page state inspect करें, browser evidence capture करें, फिर patch करें। Watch item यह है कि इस loop का कितना हिस्सा frameworks और local dev servers में reliable और scriptable बनता है। जितना यह stable होता है, coding agents के लिए यह उतना ही कम acceptable होता है कि वे rendered page को देखे बिना frontend work को finished बताएं।

[63:00] GitHub Copilot Business और Enterprise - GPT-5.3-Codex base model बनता है GitHub Copilot Business और Enterprise के लिए GPT-5.3-Codex को base model बना रहा है। महत्वपूर्ण details हैं model approval gates, February 4, 2027 तक long-term-support availability, premium request multipliers, GPT-4.1 deprecation timing, और base-model defaults वह कैसे enterprise users के लिए fallback behavior shape करते हैं।

Individual developers के लिए, एक model upgrade preference जैसा लग सकता है। एक organization के लिए, यह policy है। Base model thousands of users को जो default मिलता है उसे affect करता है, कौन से workloads premium requests consume करते हैं, कौन से models को approval चाहिए, और older behavior कितने समय तक available रहता है। Long-term support मायने रखता है क्योंकि teams को older model गायब होने से पहले code-generation behavior, security review patterns, और internal guidance validate करने का समय चाहिए।

व्यावहारिक recommendation यह है कि change को एक better model announcement की जगह governance migration की तरह treat करें। Confirm करें कि कौन से models approved हैं, premium request multipliers को real usage के against check करें, workflows identify करें जो अभी भी GPT-4.1 behavior पर depend हैं, और deprecation window बंद होने से पहले fallback path document करें।

[70:00] Close - what to test next Upgrade checklist practical है। Codex के लिए, Python SDK auth, string turns, TurnResult, schema-constrained resume, remote keepalives, image fidelity, और goal-loop stopping test करें। Claude Code के लिए, claude agents --json, OTEL agent IDs, status-line GitHub fields, plugin preview data, hook payloads, और Bash environment-variable permission prompts test करें। Gemini Managed Agents के लिए, stateful follow-up interactions और file persistence test करें। WebMCP और Chrome DevTools के लिए, एक high-value browser action plus एक rendered-page verification loop test करें। AI Studio और Copilot के लिए, daily work में roll करने से पहले scopes, handoff paths, approval gates, और cost controls review करें।