Episode 60: क्लॉड कोड 2.1.158, कोडेक्स विंडोज कंट्रोल

Claude Code 2.1.158 Opus 4.7 और Opus 4.8 के लिए Bedrock, Vertex, और Foundry पर ऑटो मोड का विस्तार करता है जब CLAUDE_CODE_ENABLE_AUTO_MODE=1 सक्षम हो। OpenAI का 29 मई Codex ऐप अपडेट Windows पर कंप्यूटर उपयोग जोड़ता है, मोबाइल या Mac से रिमोट कंट्रोल जबकि Windows मशीन होस्ट बनी रहती है, ऐप में ब्राउज़र व्यवहार तेज़ और अधिक स्थिर, और पहचान, गतिविधि, उपयोग आंकड़े और टोकन गतिविधि के लिए Codex Profiles। फिर एपिसोड Anthropic के Messages API सिस्टम एंट्री और स्थानीय आर्किटेक्चरल मेमोरी, निरंतर एजेंट कॉग्निशन, लोकल-ओनली कोडिंग एजेंट और ग्राफ-बैक्ड रिपेयर के आसपास प्रोजेक्ट रडार में जाता है।

[00:00] शुरुआत: रिलीज़, कंट्रोल सरफेस और मेमोरी आज का उपयोगी AgentStack Daily लेन कंट्रोल के बारे में है। Claude Code मैनेज्ड क्लाउड प्रोवाइडर्स पर ऑटो मोड एक्सपोज़ कर रहा है, लेकिन केवल एक स्पष्ट एनवायरनमेंट वेरिएबल के पीछे। Codex Windows तक कंप्यूटर उपयोग का विस्तार कर रहा है जबकि प्रोजेक्ट फ़ाइलें, शेल, ऐप सर्वर और स्थानीय संदर्भ Windows होस्ट पर रहते हैं। OpenAI प्रोफाइल और टोकन गतिविधि सतह पर ला रहा है ताकि एजेंट उपयोग इंस्पेक्टेबल हो। Anthropic हार्नेस बिल्डर्स को रनिंग मैसेज सीक्वेंस के अंदर सिस्टम इंस्ट्रक्शन अपडेट करने का तरीका दे रहा है। फिर प्रोजेक्ट रडार रेपो स्तर पर वही सवाल पूछता है: एजेंट आर्किटेक्चर, निर्णय और रिपेयर साक्ष्य को अगले प्रॉम्प्ट में सब कुछ डंप किए बिना कैसे याद रखते हैं?

[03:00] Claude Code 2.1.158 और Codex Windows कंट्रोल Claude Code 2.1.158 Opus 4.7 और Opus 4.8 के लिए Bedrock, Vertex, और Foundry पर ऑटो मोड सपोर्ट जोड़ता है जब CLAUDE_CODE_ENABLE_AUTO_MODE=1 सेट हो।

वह छोटी रिलीज़ समझाने योग्य है क्योंकि ऑटो मोड एक सुविधा टॉगल नहीं, बल्कि एक पॉलिसी और राउटिंग सरफेस है। जब एक कोडिंग एजेंट तय करता है कि कोई एक्शन स्वचालित रूप से चलाने के लिए पर्याप्त सुरक्षित है, तो प्रोवाइडर बाउंड्री मायने रखती है। Bedrock, Vertex, और Foundry डिप्लॉयमेंट अक्सर इसलिए मौजूद होते हैं क्योंकि एक टीम मैनेज्ड क्लाउड एनवायरनमेंट में मॉडल एक्सेस चाहती है जिसकी अपनी पहचान, लॉगिंग और कंप्लायंस नियम हों। वहां ऑटो मोड उपलब्ध कराना मतलब एटमैटिक-एक्शन क्लासिफायर को एंटरप्राइज एजेंट रन के बाकी हिस्से के समान मैनेज्ड लेन में टेस्ट किया जा सकता है।

OpenAI का 29 मई Codex ऐप अपडेट दूसरा फ्रंट-ऑफ-एपिसोड आइटम है। Codex कंप्यूटर उपयोग अब योग्य उपयोगकर्ताओं के लिए Windows को सपोर्ट करता है, ताकि Codex Windows ऐप्स में देख, क्लिक और टाइप कर सके जबकि टेस्टिंग, डिबगिंग और बिल्ड को परिष्कृत कर रहा हो। रिमोट-कंट्रोल शेप मायने रखती है: एक उपयोगकर्ता Windows मशीन पर काम शुरू कर सकता है, फिर iOS या Android पर ChatGPT, या Mac पर Codex का उपयोग करके प्रगति देख सकता है, प्रॉम्प्ट का जवाब दे सकता है, और थ्रेड को स्टीयर कर सकता है जब डेस्क से दूर हो। Windows मशीन प्रोजेक्ट फ़ाइलें, शेल, ऐप सर्वर और स्थानीय संदर्भ के लिए होस्ट बनी रहती है। यह कई स्थानीय वर्कफ़्लो के लिए सही बाउंड्री है: पर्यवेक्षण चल सकता है, लेकिन एक्जीक्यूशन रेपो और चल रहे ऐप के पास रहता है।

Codex Profiles एक और इंस्पेक्टेबिलिटी लेयर जोड़ती हैं। पहचान, समय के साथ गतिविधि, प्रोफाइल विवरण, उपयोग आंकड़े और टोकन गतिविधि योग्य उपयोगकर्ताओं को वह ऑपरेशनल सरफेस अधिक देती है जिसकी लंबे चलने वाले एजेंट्स को जरूरत है। जब एक दैनिक जॉब फेल होती है, जब एक रिमोट सेशन अप्रत्याशित टोकन का उपयोग करती है, या जब एक प्रोफाइल गलत पहचान से बंधी होती है, उपयोग साक्ष्य एक विलासिता नहीं है। यह तरीका है जिससे स्टैक डिबग करने योग्य बनती है।

[13:00] रनटाइम इंस्ट्रक्शन एडिटेबल स्टेट बन जाते हैं Anthropic के Opus 4.8 एनाउंसमेंट में एक डेवलपर API बदलाव शामिल था जो अपना खंड देने योग्य है: Messages API अब मैसेज एरे के अंदर सिस्टम एंट्री स्वीकार करती है। एक कोडिंग-एजेंट हार्नेस के लिए, यह एक उपयोगी प्रिमिटिव है। यूजर गोल यूजर लेन में रह सकता है, जबकि रनटाइम फैक्ट्स को सिस्टम एंट्री के रूप में जोड़ा जा सकता है जब एनवायरनमेंट बदलता है।

एक रियल एजेंट रन के दौरान क्या बदलता है इसके बारे में सोचें। एक सैंडबॉक्स लॉकडाउन हो सकता है। एक टोकन बजट सिकुड़ सकता है। एक टेस्ट सूट फेलिंग से पासिंग में जा सकता है। एक बैकग्राउंड वर्कर खत्म हो सकता है। एक टूल रिवोक हो सकता है। एक रेपो एक वर्कट्री से दूसरी में स्विच कर सकता है। रनटाइम स्टेट को अपडेट करने के लिए कोई स्ट्रक्चर्ड तरीका नहीं होने पर, हार्नेस इन विवरणों को सामान्य टेक्स्ट में भरने लगते हैं या मॉडल से लॉग से अनुमान लगाने के लिए कहते हैं। मैसेज एरे के अंदर सिस्टम एंट्री हार्नेस को, अधिक सटीक रूप से, "ऑपरेटिंग कॉन्ट्रैक्ट बदल गया" कहने देती हैं।

प्रॉम्प्ट-कैश एंगल भी महत्वपूर्ण है। लंबे सत्र महंगे होते हैं क्योंकि पूरे कॉन्ट्रैक्ट को दोहराने से टोकन जलते हैं और संदर्भ भारी हो जाता है। अगर हार्नेस कैश व्यवहार को तोड़े बिना विशिष्ट सिस्टम फैक्ट्स अपडेट कर सकता है, तो यह एजेंट को लगातार पूरे प्रॉम्प्ट को फिर से बनाए बिना करंट रख सकता है। यह OpenClaw, Hermes, Codex, Claude Code और किसी भी शेड्यूलर के लिए विशेष रूप से उपयोगी है जिसे लंबे समय तक चलने वाले जॉब को करंट परमिशन के साथ संरेखित रखने की जरूरत है।

[21:00] OpenLore और Mnemo: स्ट्रक्चर और फ्रेशनेस के साथ मेमोरी OpenLore ओरिएंटेशन समस्या को हमला करती है। कोडिंग एजेंट बहुत सारे संदर्भ को एक ही प्रोजेक्ट स्ट्रक्चर को फिर से खोजने में बर्बाद करते हैं: एंट्री पॉइंट, कॉल पाथ, मॉड्यूल, क्लस्टर, आर्किटेक्चरल निर्णय और ड्रिफ्ट। OpenLore इसे एक स्थानीय ग्राफ और MCP-एक्सेसिबल ओरिएंटेशन लेयर में बदल देता है। एजेंट एक कॉम्पैक्ट आर्किटेक्चर डाइजेस्ट मांग सकता है, फिर केवल ग्राफ का वह हिस्सा विस्तारित कर सकता है जो करंट टास्क के लिए प्रासंगिक है। यह हर बार सत्र शुरू होने पर डायरेक्टरी ट्री, कई फ़ाइलें, एक README और एक ट्रांसक्रिप्ट पढ़ने से बेहतर है।

Mnemo मेमोरी समस्या को एक पूरक दिशा में लेता है। यह स्थानीय-पहले स्टोरेज, हाइब्रिड रिट्रीवल, नॉलेज ग्राफ़, लाइफसाइकल हुक और मेमोरी डिके के साथ निरंतर इंजीनियरिंग कोग्निशन पर केंद्रित है। डिके का हिस्सा वह दिलचस्प ऑपरेशनल डिटेल है। एजेंट मेमोरी को हर पुराने निर्णय को हमेशा के लिए समान रूप से अधिकृत नहीं मानना चाहिए। एक ताजा कन्वेंशन, एक सक्रिय टास्क और एक ज्ञात फेलियर मोड को आसानी से याद किया जाना चाहिए। तीन सप्ताह पुराना एक स्टेल वर्कअराउंड ठंडा हो जाना चाहिए जब तक कि उसे पुनः मजबूत नहीं किया जाता।

साथ में ये प्रोजेक्ट एजेंट स्टैक के लिए एक बेहतर मेमोरी लेयर की ओर इशारा करते हैं। OpenLore याद रखता है कि कोड कैसे आकार लेता है। Mnemo याद रखता है कि प्रोजेक्ट ने क्या सीखा और वह ज्ञान कितना ताजा है। दोनों पुराने ट्रांसक्रिप्ट को हर प्रॉम्प्ट में डंप करने से ज्यादा उपयोगी हैं, क्योंकि दोनों हार्नेस को छोटा, अधिक प्रासंगिक संदर्भ पुनर्प्राप्त करने का तरीका देते हैं।

[31:00] OpenMonoAgent और Prometheus: लोकल एजेंट और ग्राफ-बैक्ड रिपेयर OpenMonoAgent एक उपयोगी लोकल-एजेंट प्रयोग है क्योंकि यह no-meter, no-cloud बेसलाइन के बारे में स्पष्ट है। यह terminal-native कोडिंग एजेंट के रूप में चलता है जिसमें llama.cpp के माध्यम से लोकल इन्फरेंस, Docker सैंडबॉक्सिंग, LSP और Roslyn कोड इंटेलिजेंस, MCP सपोर्ट और प्लेबुक्स हैं। इसे हर फ्रंटियर मॉडल को हराने की जरूरत नहीं है स्टैक में अपनी जगह कमाने के लिए। इसे प्राइवेट रेपो पढ़ना, मैकेनिकल एडिट्स, रिपीटेबल लो-रिस्क रिफैक्टर्स और लोकल टूल-लूप प्रयोगों को इतना सस्ता बनाना है कि उन्हें बार-बार चलाया जा सके।

ट्रेडऑफ स्पष्ट है। लोकल मॉडल क्लोर स्ट्रॉन्गर hosted मॉडल की तुलना में कठिन रीजनिंग और व्यापक सिंथेसिस पर संघर्ष कर सकते हैं। लेकिन लोकल एक्जीक्यूशन एक टीम को एक उपयोगी तुलना बिंदु देता है: क्या कोड या प्रॉम्प्ट बाहर भेजे बिना संभाला जा सकता है, क्या एक मजबूत मॉडल की जरूरत है, और क्या लोकल ओरिएंटेशन प्लस क्लाउड रीजनिंग में बांटा जाना चाहिए।

Prometheus ग्राफ-बैक्ड रिपेयर लेन में बैठता है। इसके रिपॉजिटरी में एक नॉलेज-ग्राफ-ड्रिवन एजेंट का वर्णन है जो जटिल कोडबेस को मैप करने, समझने और रिपेयर करने के लिए है। यह मायने रखता है क्योंकि ऑटोनॉमस रिपेयर वह जगह है जहां कोडिंग एजेंट अक्सर बहुत आत्मविश्वासी हो जाते हैं। एक ग्राफ रिपेयर लूप को सीमित कर सकता है: कौन से फाइलें जुड़े हैं, कौन से कॉल पाथ मायने रखते हैं, कौन से टेस्ट चुने जाने चाहिए, और पैच को कौन सा साक्ष्य समर्थन करता है। लक्ष्य यह नहीं है कि ग्राफ को जादुई बनाया जाए। लक्ष्य यह है कि रिपेयर स्टेप को संरचना से पैच और वेरिफिकेशन प्लान तक साक्ष्य ले जाने के लिए मजबूर किया जाए।

[40:00] आगे क्या आज़माएं EP060 से व्यावहारिक कतार स्पष्ट है। Claude Code auto mode को केवल explicit environment फ्लैग के पीछे और केवल उस मैनेज्ड क्लाउड लेन में टेस्ट करें जहां यह वास्तव में चलेगा। Codex Windows computer use को निर्भर होने से पहले किसी बेकार ऐप पर टेस्ट करें। Codex Profiles को पहचान, उपयोग और टोकन एक्टिविटी के लिए ऑपरेशनल साक्ष्य के रूप में मानें। हार्नेस बिल्डर्स के लिए, लंबे जॉब्स के दौरान रनटाइम स्टेट अपडेट करने के एक साफ तरीके के रूप में Messages API के अंदर सिस्टम एंट्रीज़ का अध्ययन करें।

फिर एक मेमोरी प्रयोग चुनें। OpenLore का उपयोग तब करें जब दर्द आर्किटेक्चरल रिडिस्कवरी हो। Mnemo का उपयोग तब करें जब दर्द भूले गए निर्णय और स्टेल कॉन्टेक्स्ट हो। OpenMonoAgent का उपयोग तब करें जब दर्द प्राइवेसी, लागत या लोकल रिपीटेबिलिटी हो। Prometheus का उपयोग तब करें जब रिसर्च प्रश्न ग्राफ-कंस्ट्रेंड रिपेयर हो। दैनिक पाठ सरल है: एजेंट स्टैक अधिक सक्षम होते जा रहे हैं, लेकिन टिकाऊ लाभ अभी भी नियंत्रण, साक्ष्य और संदर्भ है जो उपयोग करने के लिए काफी छोटा रहता है।