Episode 64: Claude Code 2.1.165, Microsoft का MAI कोडिंग

एपिसोड 64 — 5 जून, 2026

[00:00] एपिसोड हुक

Claude Code 2.1.165 5 जून, 2026 को नवीनतम npm latest के रूप में आता है, जो 2.1.163 और 2.1.164 के बाद है — सभी शांत स्वच्छता रिलीज़ जो बैकग्राउंड सेशन, प्लगइन हुक, स्किल सिंटैक्स और Windows पाथ हैंडलिंग को साफ करते हैं। Microsoft ने 2 जून को Build 2026 पर सात-मॉडल MAI परिवार पेश किया, जिसमें MAI-Code-1-Flash हेडलाइन के रूप में: एक 5B-पैरामीटर कोडिंग मॉडल जो GitHub Copilot प्रोडक्शन हार्नेस पर प्रशिक्षित है, जो SWE-Bench Pro पर 51% और समकक्ष मॉडलों की तुलना में 60% टोकन पर हल्का है। MAI-Image-2.5 Arena Image Edit लीडरबोर्ड पर 1403 पर पहुंचता है, Gemini 3 Pro से आगे। NVIDIA का Cosmos 3 Hugging Face और GitHub पर तीन साइज़ में उपलब्ध ओपन वर्ल्ड फाउंडेशन मॉडल के साथ फिजिकल AI विकास खोलता है। प्रोजेक्ट रडार एजेंट मेमोरी, कोड ग्राफ़ और MCP टूलिंग को कवर करता है जो लोकल कोडिंग-एजेंट स्टैक की सेवा करते हैं।

[02:00] Claude Code 2.1.165 — बैकग्राउंड सेशन, हुक और Windows के लिए तीन-रिलीज़ स्वच्छता ब्लॉक

Claude Code 2.1.165 5 जून का npm latest है, जो 2.1.162 के EP063 बेसलाइन से तीन-रिलीज़ स्वच्छता ब्लॉक को पूरा करता है। यह ब्लॉक कोई फीचर वेव नहीं है — यह वह प्रकार की रिलीज़ है जो उन गैप्स को बंद करती है जो ऑपरेटर्स तब खोजते हैं जब वर्कफ्लो गलत हो जाता है।

Version 2.1.163 तीन में से सबसे ऑपरेशनली दिलचस्प है। requiredMinimumVersion और requiredMaximumVersion प्रबंधित सेटिंग्स संगठन के एडमिन को वर्शन गेट लागू करने देती हैं — Claude Code तब शुरू होने से इनकार कर देता है जब उसका वर्शन अनुमत सीमा के बाहर होता है और उपयोगकर्ता को अनुमोदित वर्शन पर निर्देशित करता है। फ्लीट ऑपरेटर्स के लिए जिन्हें वर्शन में deterministic व्यवहार की आवश्यकता होती है, यह एक वास्तविक compliance primitive है। /plugin list अब इंस्टॉल किए गए प्लगइन को --enabled/--disabled फिल्टर के साथ दिखाता है, जो तब मायने रखता है जब प्लगइन स्प्रॉल ऑडिट करना मुश्किल बनाता है कि वास्तव में क्या लोड है।

Stop और SubagentStop हुक hookSpecificOutput.additionalContext लौटाने की क्षमता प्राप्त करते हैं — हुक Claude को फीडबैक दे सकता है और टर्न को जारी रख सकता है बिना हुक एरर के लेबल के। यह बदलता है कि हुक लेखक सेशन को कैसे बढ़ा सकते हैं: एक हुक जिसे टर्न को ब्लॉक किए बिना जानकारी सतह पर लानी है उसके पास अब एक साफ कॉन्ट्रैक्ट है। स्किल में आकस्मिक $ से पहले अंक के लिए \$ एस्केप सिंटैक्स जोड़ते हैं, जो शेल वेरिएबल रेफरेंस शामिल करने वाले कमांड बॉडी के लिए मायने रखता है। stdio MCP सर्वर अब वही CLAUDE_CODE_SESSION_ID प्राप्त करते हैं जो हुक और Bash को --resume पर मिलता है, जो उस गैप को बंद करता है जहां MCP सर्वर resume ऑपरेशन में सेशन को सहसंबंधित नहीं कर सकते थे।

Windows फिक्सों को अलग से नोट करने योग्य है। 2.1.154 में एक regression के कारण $TMPDIR सभी Bash कमांड के लिए /tmp/claude-{uid} पर ओवरराइड हो गया था बजाय केवल sandboxed के, जिसने Bazel और EDR-प्रोटेक्टेड Go वर्कफ्लो को तोड़ दिया जो वास्तविक टेम्प डायरेक्टरी पर निर्भर करते हैं। Bash कमांड अब Windows पर सही ढंग से फेल होते हैं जब सेशन-env डायरेक्टरी में read-only एट्रिब्यूट हो या OneDrive के अंदर हो। क्रॉस-सेशन मैसेजिंग (SendMessage) शांति से टूट गई जब CLAUDE_CODE_TMPDIR या $TMPDIR गहरी डायरेक्टरी पर इंगित करती थी — यह अब ठीक है।

Version 2.1.165 शुद्ध बग फिक्स और विश्वसनीयता सुधार है। व्यावहारिक अपग्रेड सूची: अपने फ्लीट की वर्शन compliance सेटिंग्स का ऑडिट करें, यह देखने के लिए /plugin list चलाएं कि वास्तव में क्या इंस्टॉल है, टर्न एक्सटेंशन व्यवहार सत्यापित करने के लिए एक हुक टेस्ट करें जो additionalContext लौटाता है, और सत्यापित करें कि $TMPDIR regression फिक्स के बाद Bazel और EDR-प्रोटेक्टेड वर्कफ्लो सही ढंग से चलते हैं।

[14:00] Build 2026 पर Microsoft MAI परिवार — MAI-Code-1-Flash और Copilot-native कोडिंग मॉडल

Microsoft ने 2 जून को Build 2026 में सात-मॉडल MAI परिवार की घोषणा के साथ शुरुआत की। एजेंट स्टैक के लिए सबसे महत्वपूर्ण मॉडल MAI-Code-1-Flash है: एक 5-बिलियन-पैरामीटर कोडिंग मॉडल जिसे सीधे GitHub Copilot प्रोडक्शन टूल हार्नेस पर प्रशिक्षित किया गया है, जनरेटिक बेंचमार्क डेटासेट पर नहीं। प्रशिक्षण दृष्टिकोण ही मुख्य अंतर है। एक ही हार्नेस पर प्रशिक्षित करके जिनका डेवलपर्स अपने रोजमर्रा के कोडिंग कार्यों के लिए उपयोग करते हैं, मॉडल एजेंटिक कोडिंग वर्कफ़्लो में आसपास के टूल्स और सिस्टम के साथ बातचीत करना सीखता है — बस बेंचमार्क प्रॉम्प्ट का जवाब देने का तरीका नहीं।

बेंचमार्क संख्याएं ठोस हैं। MAI-Code-1-Flash SWE-Bench Pro पर 51% स्कोर करता है, उसी प्रोडक्शन हार्नेस पर Claude Haiku 4.5 से +16 अंक की बढ़त। SWE-Bench Verified, SWE-Bench Multilingual, और Terminal Bench 2 पर, यह चारों कोर कोडिंग बेंचमार्क पर Haiku 4.5 से बेहतर प्रदर्शन करता है। एडाप्टिव सॉल्यूशन लेंथ कंट्रोल दक्षता तंत्र है: मॉडल सरल अनुरोधों पर संक्षिप्त रहता है और कठिन समस्याओं पर अधिक रीजनिंग बजट आवंटित करता है। Microsoft कॉम्प्लेक्स टास्क पर 60% कम सॉल्यूशन टोकन देखता है, जो कम विलंबता, कम लागत और सहज इंटरैक्टिव वर्कफ़्लो में अनुवादित होता है।

MAI-Image-2.5 ने 2 जून तक Arena Image Edit लीडरबोर्ड पर 1403 स्कोर किया, Gemini 3 Pro Image Preview 2K के 1388 से आगे। यह मल्टीमॉडल इमेज एडिटिंग में Microsoft के लिए एक वास्तविक लीडरबोर्ड पोजीशन है — पहली बार काफी समय बाद यह तुलनीय बेंचमार्क पर Google से स्पष्ट रूप से आगे रहा है। Microsoft शॉप्स के अंदर एजेंट स्टैक के लिए, यह एक ऐसा गैप भरता है जहां इमेज टास्क को Copilot/Foundry सतह के बाहर रूट करना पड़ता था।

MAI-Thinking-1 (35B सक्रिय / ~1T कुल पैरामीटर) Microsoft Foundry पर प्राइवेट प्रीव्यू में है, SWE-Bench Pro पर Claude Opus 4.6 के विरुद्ध पोजीशन में। पूरा MAI परिवार इमेज, वॉइस और रीजनिंग मॉडल को कवर करता है, लेकिन MAI-Code-1-Flash वह है जो आज कोडिंग-एजेंट वर्कफ़्लो को बदलता है।

स्ट्रैटेजिक संकेत: Microsoft OpenAI निर्भरता कम कर रहा है और अपने ही डेवलपर स्टैक के अनुकूल प्रशिक्षण पाइपलाइन के साथ फाउंडेशन मॉडल क्षमताओं पर प्रतिस्पर्धा कर रहा है। एजेंट-स्टैक ऑपरेटरों के लिए जो लैब्स के बीच रूट करते हैं, यह एक नया Copilot-नेटिव मॉडल जोड़ता है जो पहले से उनके उपयोग किए जाने वाले टूल्स के अंदर है।

[26:00] NVIDIA Cosmos 3 — एजेंट्स की अगली पीढ़ी के लिए खुला भौतिक AI फाउंडेशन मॉडल

NVIDIA ने COMPUTEX 2026 पर Cosmos 3 को एक खुली दुनिया फाउंडेशन मॉडल के रूप में लॉन्च किया। मॉडल विज़न रीजनिंग, वर्ल्ड जेनरेशन और एक्शन प्रेडिक्शन को एक सिंगल मिक्सचर-ऑफ-ट्रांसफॉर्मर्स आर्किटेक्चर में जोड़ता है — तीन क्षमताएं जो पहले अलग-अलग सिस्टम थीं। तीन साइज़ उपलब्ध हैं: Cosmos 3 Nano (16B पैरामीटर, वर्कस्टेशन-ग्रेड RTX PRO 6000 GPU के लिए ऑप्टिमाइज़्ड), Cosmos 3 Super (64B पैरामीटर, लार्ज-स्केल सिंथेटिक डेटा जेनरेशन के लिए डेटा सेंटर Hopper और Blackwell GPU को टारगेट करता है), और Cosmos 3 Edge (आगामी, रियल-टाइम एज इंफेरेंस के लिए)।

Cosmos 3 शोध और वाणिज्यिक उपयोग के लिए खुला है। NVIDIA ने मॉडल वेट, ट्रेनिंग स्क्रिप्ट, डिप्लॉयमेंट टूल और Hugging Face और GitHub पर डेटासेट रिलीज़ किए हैं। बेंचमार्क कवरेज व्यापक है: Artificial Analysis, Physics-IQ, PAI-Bench, वर्ल्ड जेनरेशन सटीकता के लिए R-Bench, एक्शन पॉलिसी के लिए RoboLab और RoboArena, और विज़न समझ के लिए VANTAGE-Bench और TAR। खुले मॉडलों में, Cosmos 3 इन बेंचमार्क पर अग्रणी है।

एजेंट-स्टैक एंगल तुरंत कोडिंग कार्य नहीं है — यह समझने के बारे में है कि भौतिक AI फाउंडेशन मॉडल एजेंट हार्डवेयर की अगली पीढ़ी के लिए क्या मतलब रखते हैं। एजेंट्स जो रोबोट, वाहनों और वास्तविक दुनिया के वातावरण के साथ बातचीत करते हैं, उन्हें बिल्कुल वही क्षमताएं चाहिए जो Cosmos 3 जोड़ता है: विज़न रीजनिंग, वर्ल्ड सिमुलेशन और एक्शन प्रेडिक्शन। क्षितिज देखने वाले ऑपरेटरों के लिए, यह खुला फाउंडेशन मॉडल है जिस पर रोबोटिक्स टीमें और सिमुलेशन-आधारित विकास शॉप्स बनाएंगे।

[35:00] GitHub Copilot डेस्कटॉप ऐप — Copilot स्टैक के लिए एजेंट-नेटिव ऑर्केस्ट्रेशन

GitHub का नया डेस्कटॉप ऐप वह प्रोडक्ट एनाउंसमेंट है जो Copilot को एक रिएक्टिव कोडिंग असिस्टेंट से प्रोएक्टिव मल्टी-एजेंट ऑर्केस्ट्रेशन सरफेस में बदल देता है। "My Work" डैशबोर्ड रिपॉजिटरीज, इश्यूज, पुल रिक्वेस्ट्स और बैकग्राउंड ऑटोमेशन में एक साथ कई AI एजेंट्स की निगरानी और दिशा देता है। प्रत्येक सेशन अपने खुद के आइसोलेटेड Git वर्कट्री में चलता है — यह पैरलल एजेंट वर्क के लिए मुख्य आर्किटेक्चरल निर्णय है: कोई ब्रांच कन्फ्लिक्ट नहीं, कोई मैनुअल ब्रांच मैनेजमेंट नहीं, कोई सेशन इंटरफेरेंस नहीं जब दो एजेंट एक ही कोडबेस पर एक साथ काम कर रहे हों।

कैनवस सबसे नवीन इंटरैक्शन डिज़ाइन है। ये इंटरैक्टिव, दो-तरफी विज़ुअल सरफेस हैं जहां डेवलपर्स और एजेंट्स रियल टाइम में सहयोग करते हैं। एजेंट कैनवस पर अपनी वर्तमान योजना, टर्मिनल आउटपुट, डिप्लॉयमेंट्स या ब्राउज़र सेशन डिस्प्ले करता है। डेवलपर विंडोज स्विच किए बिना काम की जांच, स्टीयर और वेरिफाई कर सकता है। यह आज के अधिकांश एजेंट्स द्वारा उपयोग किए जाने वाले टर्मिनल-एंड-चैट पैटर्न से एक अलग मॉडल है।

Agent Merge इश्यू उठाने से लेकर रिव्यू, चेक्स और मर्जिंग तक पुल रिक्वेस्ट लाइफसाइकल को ऑटोमेट करता है। Copilot SDK छह भाषाओं में सामान्यतः उपलब्ध है, जिसका मतलब है कि कस्टम टूल्स और एजेंट एक्सटेंशन एक हैक के बजाय प्राथमिक विकास सरफेस बन जाते हैं। CLI में वॉइस मोड उन डेवलपर्स के लिए एक नया इनपुट मोडैलिटी जोड़ता है जो टाइपिंग की जगह स्पीच पसंद करते हैं।

व्यावहारिक कदम: अगर आप Copilot Pro या Enterprise सब्सक्राइबर हैं, तो टेक्निकल प्रीव्यू में शामिल होंं और किसी कम-जोखिम वाले रेपो पर एक पैरलल एजेंट सेशन टेस्ट करें। SDK का उपयोग करके एक कस्टम टूल बनाएं जो किसी एजेंट के आपके मौजूदा वर्कफ़्लो के साथ इंटरैक्ट करने के तरीके को बढ़ाता है।

[44:00] OpenHands 1.6.0 — Kubernetes, Planning Mode, और एंटरप्राइज़-ग्रेड ऑटोनॉमस कोडिंग

OpenHands ओपन-सोर्स इकोसिस्टम में सबसे प्रोडक्शन-हार्डेंड ऑटोनॉमस कोडिंग एजेंट है। मार्च 2026 में संस्करण 1.6.0 दो प्रमुख एडिशन के साथ आया: स्केल पर कंटेनराइज़्ड एजेंट वर्कलोड के लिए Kubernetes सपोर्ट, और एक बीटा Planning Mode जो एक्जीक्यूशन से पहले स्पष्ट टास्क डिकंपोज़िशन जोड़ता है।

एजेंट आर्किटेक्चर को एक रेफरेंस पॉइंट के रूप में समझना योग्य है। OpenHands एक सैंडबॉक्स्ड एनवायरनमेंट में चलता है जिसमें एम्बेडेड शेल, वेब ब्राउज़र, कोड एडिटर और टास्क प्लानर होता है। यह एनवायरनमेंट स्विच किए बिना एंड-टू-एंड सॉफ्टवेयर इंजीनियरिंग टास्क — कोड लिखना और मॉडिफाई करना, कमांड चलाना, वेब ब्राउज़ करना, टेस्ट चलाना, डीबगिंग — परफॉर्म करता है। LLM फ्लेक्सिबिलिटी का मतलब है कि आप GPT-4, Claude, Gemini, लोकल मॉडल्स या अन्य प्लग इन कर सकते हैं।

एंटरप्राइज़ एडॉप्शन लिस्ट सबसे ठोस सिग्नल है: AMD, Apple, Google, Amazon, Netflix और NVIDIA इसका प्रोडक्शन में उपयोग कर रहे हैं। यह आपको बताता है कि ऑटोनॉमस कोडिंग एजेंट्स मैच्योरिटी कर्व में कहां हैं — रिसर्च प्रोटोटाइप नहीं, बल्कि कुछ सबसे मांग वाले इंजीनियरिंग एनवायरनमेंट में प्रोडक्शन टूल्स।

एजेंट स्टैक के लिए, OpenHands प्रोडक्शन ऑटोनॉमस कोडिंग का एक प्राथमिक रेफरेंस है। Kubernetes इंटीग्रेशन का मतलब है कि यह अब कंटेनराइज़्ड, ऑर्केस्ट्रेटेड एजेंट इन्फ्रास्ट्रक्चर का हिस्सा बन सकता है। Planning Mode बीटा देखने योग्य है क्योंकि एक्जीक्यूशन से पहले स्पष्ट डिकंपोज़िशन उन अंतरों में से एक है जो डेमो में काम करने वाले ऑटोनॉमस एजेंट्स को उन एजेंट्स से अलग करता है जो प्रोडक्शन में काम करते हैं।

[53:00] व्यावहारिक कतार

Claude Code के लिए, अपनी fleet version compliance सेटिंग्स का ऑडिट करें, देखने के लिए कि वास्तव में क्या इंस्टॉल है /plugin list चलाएं, और $TMPDIR regression fix के बाद सत्यापित करें कि Bazel और EDR-protected workflows सही तरीके से चल रहे हैं। Microsoft MAI के लिए, GitHub Copilot के माध्यम से एक वास्तविक coding task पर MAI-Code-1-Flash को टेस्ट करें और token usage की तुलना करें; यदि आप Microsoft shop के अंदर हैं, तो एक image editing task पर Copilot के माध्यम से MAI-Image-2.5 को टेस्ट करें। NVIDIA Cosmos 3 के लिए, Hugging Face से model pull करें यदि आप physical AI या robotics पर काम करते हैं, और भविष्य के edge agent hardware के लिए Edge size tier को ट्रैक करें। GitHub Copilot desktop app के लिए, technical preview में शामिल हों और एक low-risk repo पर एक parallel agent session को टेस्ट करें। OpenHands के लिए, अपनी repos में से एक पर इसे चलाएं, एक multi-step task पर Planning Mode को टेस्ट करें, और single-turn coding agent के खिलाफ end-to-end task completion की तुलना करें।