Qwen 3.6 27B मिश्रित RTX हार्डवेयर पर 80 टोकन/सेकंड, Codex OSS के लिए खुला, Fable 5 निलंबित — Episode 70 cover art
Episode 70·14 जून 2026·41:45

Qwen 3.6 27B मिश्रित RTX हार्डवेयर पर 80 टोकन/सेकंड, Codex OSS के लिए खुला, Fable 5 निलंबित

एक विषम दोहरी GPU सेटअप जिसमें RTX 5080 को RTX 3090 के साथ जोड़ा गया था, ने Qwen 3.6 27B पर Q8 क्वांटिज़ेशन के साथ एक साफ टेंसर-पैरलल लेयर स्प्लिट पर 80 टोकन/सेकंड की गति बनाए रखी। OpenAI ने Codex को ओपन सोर्स मैंटेनरों के लिए खोला और OpenAI Academy में तीन वर्कफ़्लो कोर्स जोड़ीं। Anthropic ने संघीय निर्देश के बाद Fable 5 और Mythos 5 को US सरकार की पहुंच से निलंबित कर दिया, जो Amazon CEO के ट्रंप प्रशासन अधिकारियों से मुलाकातों से जुड़ा था। Endor Labs ने Fable 5 के कोडिंग परिणामों को मध्य-स्तर में रखा। Show notes: https://tobyonfitnesstech.com/hi/podcasts/episode-70/

🎧 Listen to Episode

एपिसोड 070 — 14 जून, 2026

[00:00] एपिसोड हुक

imil.net पर एक ब्लॉग पोस्ट एक हेटेरोजीनियस ड्यूल-GPU सेटअप का दस्तावेजीकरण करती है जो RTX 5080 और RTX 3090 को जोड़कर 8-बिट क्वांटाइजेशन पर 27-बिलियन-पैरामीटर Qwen मॉडल को 80+ टोकन प्रति सेकंड इन्फरेंस थ्रूपुट बनाए रखते हुए चलाता है। हैकर न्यूज थ्रेड ने 252 पॉइंट्स हासिल किए क्योंकि बिल्डर्स ने अपने स्वयं के लोकल रिग्स के विरुद्ध परिणाम की तुलना की। उसी सप्ताह, OpenAI ने openai.com/form/codex-for-oss पर "Codex for open source" शीर्षक वाला एक लैंडिंग पेज प्रकाशित किया, जो ओपन सोर्स मेंटेनर्स के लिए Codex एक्सेस का अनुरोध करने के लिए एक समर्पित इंटेक प्रस्तुत करता है। पेज एक रनटाइम परिवर्तन के बजाय एक गेटेड साइनअप फॉर्म है, लेकिन एक एकल आधिकारिक चैनल का अस्तित्व ठंडे ईमेल और कम्युनिटी प्रोग्राम के पुराने मिश्रण की जगह लेता है। ब्रायन डगलस ने एक टुकड़ा प्रकाशित किया जो दिखाता है कि LLM-जनरेटेड Tailwind पहचाने जाने योग्य यूटिलिटी क्लास क्लस्टर के एक संकीर्ण बैंड पर कैसे converge करता है, जो टेम्पलेट फिंगरप्रिंटिंग को इस बात के मापनीय आर्टिफैक्ट के रूप में फ्रेम करता है कि कोड जनरेशन मॉडल पब्लिक कोरपोरा से कैसे सीखते हैं। Anthropic ने अलग से US सरकार के निर्देश के जवाब में Fable 5 और Mythos 5 तक पहुंच निलंबित करने के बारे में एक बयान प्रकाशित किया, और वॉल स्ट्रीट जर्नल की रिपोर्ट फेडरल कार्रवाई को Amazon CEO एंडी जैसी और US अधिकारियों के बीच पूर्व वार्ता से जोड़ती है। साइमन विलिसन का 11 जून का Claude Fable को "निरंतर सक्रिय" के रूप में चित्रण हैकर न्यूज पर 762 अपवोट ले गया।

[02:00] मिक्स्ड RTX 5080 और RTX 3090 सेटअप पर 80 टोकन/सेकंड पर Qwen 3.6 27B

imil.net पर एक ब्लॉग पोस्ट एक हेटेरोजीनियस ड्यूल-GPU कॉन्फ़िगरेशन के माध्यम से चलता है: एक RTX 5080 जो RTX 3090 के साथ जोड़ा गया है, दोनों अलग-अलग पीढ़ियों के कंज्यूमर कार्ड हैं, जो Q8 क्वांटाइजेशन पर 27-बिलियन-पैरामीटर Qwen मॉडल चला रहे हैं। मुख्य परिणाम 80 टोकन प्रति सेकंड से ऊपर निरंतर जनरेशन थ्रूपुट है। पोस्ट के आसपास की हैकर न्यूज थ्रेड 252 पॉइंट्स तक पहुंची, टिप्पणीकारों ने अपने स्वयं के लोकल सेटअप के विरुद्ध संख्याओं की तुलना की और इन्फरेंस रनटाइम विकल्प की जांच की।

तकनीकी तंत्र दो GPUs के बीच लेयर स्प्लिटिंग पर केंद्रित है। संयुक्त VRAM पूरे Q8 मॉडल के साथ KV कैश हेडरूम को रखता है, इसलिए इन्फरेंस के दौरान system RAM में ऑफलोडिंग की आवश्यकता नहीं है। रनटाइम प्रत्येक कार्ड को ट्रांसफॉर्मर लेयर्स का एक निरंतर ब्लॉक सौंपने के लिए कॉन्फ़िगर किया गया है, जो मिड-पास में वेट्स को हॉट-स्वैपिंग से बचाता है। बॉटलनेक PCIe बैंडविड्थ पर स्थानांतरित हो जाता है क्योंकि किसी भी लेयर के लिए एक्टिवेशन टेंसर्स जो बाउंड्री को पार करते हैं उन्हें बस पर यात्रा करनी होती है। Q8 क्वांटाइजेशन ही व्यवस्था को व्यवहार्य बनाता है: यह मॉडल को दो नॉन-फ्लैगशिप कार्ड पर आराम से फिट होने के लिए पर्याप्त रूप से छोटा करता है जबकि प्रति-टोकन डिकोड वर्क को प्रबंधनीय रखता है।

लेटेंसी के संदर्भ में, Q8 पर 80 tok/s इंटरैक्टिव चैट और 27B मॉडल के विरुद्ध इनलाइन कोड पूर्णता के लिए आराम क्षेत्र के भीतर अच्छी तरह से बैठता है। ट्रेड-ऑफ खुद क्वांटाइजेशन स्टेप है, जो FP16 या BF16 बेसलाइन की तुलना में रीजनिंग और कोड क्वालिटी को थोड़ा कम करता है। इन्फरेंस सेटअप विवरण — विशिष्ट बैकएंड, सैंपलिंग कॉन्फ़िगरेशन, और प्रॉम्प्ट-प्रोसेसिंग थ्रूपुट — ब्लॉग पोस्ट में हैं, जो एक पढ़ने योग्य है यदि आप बेमेल पार्ट्स से एक लोकल इन्फरेंस रिग बना रहे हैं।

आगे क्या देखना है: क्या नएर llama.cpp या vLLM रिलीज़ मिक्स्ड-वेंडर और मिक्स्ड-जेनरेशन टेंसर पैरेलिज़्म को और ऑप्टिमाइज़ करते हैं, और क्या कंज्यूमर-टियर NVLink इस तरह के सेटअप के लिए बैंडविड्थ बॉटलनेक को बदलता है।

[03:18] OpenAI ओपन सोर्स मेंटेनर्स के लिए Codex खोलता है

OpenAI ने openai.com/form/codex-for-oss पर 'Codex for open source' शीर्षक वाला एक लैंडिंग पेज शांति से प्रकाशित किया, जिसे ओपन सोर्स मेंटेनर्स के लिए एक समर्पित एक्सेस ट्रैक के रूप में स्थिति दी गई। पेज एक दस्तावेज़ीकरण ड्रॉप के बजाय एक एकल इंटेक फॉर्म है — कोई पब्लिक चेंजलॉग नहीं, कोई SDK अपडेट नहीं, और कोई मॉडल कार्ड नहीं। जो शिप हुआ वह एक गेटेड साइनअप सतह है, रनटाइम या API परिवर्तन नहीं। पेज हैकर न्यूज पर सामने आया और अपने पहले दिन 235 पॉइंट्स हासिल किए, चर्चा थ्रेड में जल्दी से मेंटेनर्स से भर गया जो कोटा, पात्रता मानदंड, और किस Codex मॉडल टियर के एक्सपोज़ होने के बारे में पूछ रहे थे।

निर्माताओं के लिए दिलचस्प सवाल यह है कि बैकएंड वास्तव में क्या करता है। क्योंकि OpenAI ने अधिकार पत्र की शर्तें प्रकाशित नहीं की हैं, यह फॉर्म विस्तारित API दर सीमाओं, समर्पित अनुमान क्षमता, या बस मौजूदा Codex एक्सेस अनुरोधों के लिए तेज़ समीक्षा में बदल सकता है। इनमें से कुछ भी पुष्टि नहीं है। जो पुष्टि है वह यह है कि अब एक आधिकारिक चैनल मौजूद है — इससे पहले, OSS मेन्टेनर्स जो Codex एक्सेस चाहते थे, उन्हें सामान्य API बिलिंग या समुदाय कार्यक्रमों के माध्यम से काम करना पड़ता था जिसमें कोई सुसंगत रास्ता नहीं था। पेज पर कोई कॉन्फिग स्निपेट नहीं है, कोई डिप्लॉयमेंट निर्देश नहीं हैं, और न ही विलंबता के दावे हैं, इसलिए कोई भी वर्कफ्लो परिवर्तन प्रतीक्षा करना होगा जब तक कि अधिकार पत्र की घोषणा न हो।

कोडिंग-एजेंट वर्कफ्लो के लिए विशेष रूप से, यह CLI, SDK, या लोकल रनटाइम को नहीं बदलता। Codex अभी भी उसी तरह इंस्टॉल होता है, उसी अनुमान एंडपॉइंट्स को कॉल करता है, और अंदर से उसी तरह व्यवहार करता है। जो बदलता है वह प्रोक्योरमेंट कहानी है: एक लोकल रेपो वाला मेन्टेनर अब एक URL की ओर इशारा कर सकता है और व्यक्तिगत रूप से बातचीत किए बिना एक्सेस के लिए कह सकता है। जोखिम यह है कि यहाँ 'ओपन सोर्स' का मतलब 'OpenAI द्वारा चुने गए प्रोजेक्ट्स' हो सकता है, 'LICENSE फाइल वाला कोई भी रेपो' नहीं। जब शर्तें आएं तो उन्हें देखें — पात्रता परिभाषा यह निर्धारित करेगी कि यह महत्वपूर्ण नई क्षमता है या मौजूदा API पर मार्केटिंग फ्रंट डोर है।

ध्यान देने योग्य बात: उसी सप्ताह, OpenAI Codex CLI और व्यापक एजेंट हार्नेस पर दोहरा रहा था, इसलिए OSS कार्यक्रम संभवतः वर्तमान रनटाइम के ऊपर परत जोड़ता है न कि नई आर्किटेक्चर पेश करता है। अगर आप एक लाइब्रेरी या फ्रेमवर्क शिप कर रहे हैं और आवेदन करने पर विचार कर रहे हैं, तो व्यावहारिक कदम यह है कि फॉर्म भरने से पहले अपना रेपो URL, योगदान इतिहास, और एक अनुच्छेद का उपयोग मामला तैयार रखें।

[05:04] Tailwind और Slop Apps: LLM कोड जनरेशन एक ही टेम्पलेट पर कैसे अभिसरण करती है

Brian Douglas ने एक लेख प्रकाशित किया जिसमें पूछा गया कि LLM-जनरेटेड Tailwind कोड प्रोजेक्ट्स में एक जैसा क्यों दिखता है। पोस्ट के आसपास Hacker News चर्चा में 108 पॉइंट्स आए, जिसमें डेवलपर्स अपने अनुभव साझा कर रहे थे। तर्क सीधा है: AI कोड जनरेशन मॉडल अपने ट्रेनिंग कॉर्पस से सबसे अधिक-आवृत्ति क्लास पैटर्न को पुन: पेश करते हैं, इसलिए यूटिलिटी-क्लास संयोजन, स्पेसिंग टोकन, और रंग पैलेट डिफ़ॉल्ट एक संकीर्ण पहचान योग्य बैंड में समाप्त होते हैं।

यह तंत्र कैनोनिकल पैटर्न पर सांख्यिकीय अभिसरण है। जब किसी मॉडल ने एक लेआउट हज़ारों बार देखा है — एक हीरो सेक्शन, एक फीचर कार्ड, एक प्राइसिंग टेबल — यह वही फ्लेक्स और ग्रिड स्पेसिंग, वही स्लेट या ग्रे पैलेट, वही बॉर्डर-रेडियस डिफ़ॉल्ट पुन: पेश करता है। इस अभिसरण को तोड़ने के लिए स्पष्ट डिज़ाइन-टोकन बाधाओं की आवश्यकता होती है जो डिफ़ॉल्ट आउटपुट को ओवरराइड करें, एक क्यूरेटेड कंपोनेंट लाइब्रेरी जिसका मॉडल को उपयोग करना आवश्यक है, या एक सिस्टम प्रॉम्प्ट जो स्पष्ट रूप से कैनोनिकल यूटिलिटी संयोजनों को प्रतिबंधित करता है। फिंगरप्रिंटिंग आउटपुट क्लासेस में खुद देखी जा सकती है और रेंडर किए गए DOM में, जिसका अर्थ है कि यह CI में टेस्ट करने योग्य है न कि केवल अंतर्ज्ञान पर आधारित निर्णय।

जनरेटेड UI शिप करने वाले निर्माताओं के लिए, व्यावहारिक निहितार्थ यह है कि एक अप्रतिबंधित LLM एक पहचान योग्य विज़ुअल सिग्नेचर प्रस्तुत करता है, और एक समीक्षक जिसमें मामूली पैटर्न पहचान भी हो वह संपादित AI आउटपुट को स्पॉट कर सकता है। डिज़ाइन टोकन और प्रोजेक्ट-विशिष्ट कंपोनेंट लाइब्रेरी के साथ मॉडल को बाधित करने से आउटपुट उसी टेम्पलेट पर नहीं गिरता। देखने योग्य बात: क्या कंज्यूमर-फेसिंग टूलिंग जनरेटेड कोड में टेम्पलेट फिंगरप्रिंटिंग को फ्लैग करने वाले CI चेक शिप करना शुरू करती है, और क्या डिज़ाइन-सिस्टम प्रोडक्ट्स डिफ़ॉल्ट रूप से स्पष्ट एंटी-स्लॉप प्रॉम्प्ट्स बनाते हैं।

[06:55] Claude Fable का सक्रिय व्यवहार गर्म बहस को जन्म देता है

11 जून को, Simon Willison ने एक लेख प्रकाशित किया जिसमें तर्क दिया गया कि Claude Fable "अथक रूप से सक्रिय" व्यवहार प्रदर्शित करता है — स्पष्ट उपयोगकर्ता प्रॉम्प्ट की प्रतीक्षा किए बिना अपनी पहल पर कार्य करना। पोस्ट ने 762-स्कोर Hacker News चर्चा प्राप्त की, जो इंगित करती है कि यह चरित्रांकन उन डेवलपर्स के साथ प्रतिध्वनित हो रहा है जो एजेंटिक कोडिंग टूल्स के साथ दैनिक रूप से काम करते हैं।

Willison द्वारा वर्णित व्यवहार पैटर्न मॉडल के अगले चरणों की आशा करने पर केंद्रित है: टूल्स चलाना, संपादन करना, या बिना निर्देश दिए आसपास के कार्यों का अनुसरण करना। आर्किटेक्चर के दृष्टिकोण से, यह संभवतः एक फीचर फ्लैग के बजाय अनुमान व्यवहार में बदलाव को प्रतिबिंबित करता है। मॉडल अपने टूल-उपयोग निर्णयों में अधिक अनुमतिशील है, पुष्टि के बजाय कार्रवाई की ओर झुकाव रखता है। HN चर्चा सुझाव देती है कि निर्माता इसे व्यवहार में देख रहे हैं — अनुमानित रिफैक्टर्स, स्वायत्त टेस्ट इनवोकेशन, या अनुरोध किए बिना फाइल संशोधन वास्तविक सत्रों में सामने आ रहे हैं।

रनटाइम निहितार्थ महत्वपूर्ण हैं। एक सक्रिय एजेंट समीक्षा मॉडल को बदल देता है: प्रत्येक चरण को मंजूरी देने के बजाय, डेवलपर एक ऐसे वर्कस्पेस पर वापस आता है जो पहले ही आगे बढ़ चुका होता है। यह diff समीक्षा, सैंडबॉक्स सीमाओं और स्पष्ट अनुमति स्कोपिंग पर अधिक जोर देता है। जिन टीमों की CI/CD पाइपलाइन में ऑटो-मर्ज या ऑटो-डिप्लॉय हुक चल रहे हैं, उनके लिए बिना प्रॉम्प्ट के कार्य करने वाला एक एजेंट एक नया जोखिम श्रेणी पैदा करता है जिसे मौजूदा ऑब्ज़र्वेबिलिटी टूलिंग पकड़ने के लिए डिज़ाइन नहीं की गई थी।

आगे क्या देखना है: क्या यह सक्रियता चेंजलॉग में एक सचेत उत्पाद दिशा के रूप में प्रस्तुत की जाती है, या क्या बिल्डर्स इतनी कड़ी प्रतिक्रिया देते हैं कि टीम एक पुष्टि मोड शिप करती है। HN थ्रेड का "यह भविष्य है" और "यह डरावना है" का मिश्रण यह सुझाता है कि जवाब अभी तैयार हो रहा है, और एजेंट पहल को ट्यून करने के लिए API सतह — अगर कोई मौजूद है — आने वाले महीनों में वर्कफ्लो डिज़ाइन के लिए एक केंद्र बिंदु बनने की संभावना है।

[08:58] Amazon CEO की अमेरिकी अधिकारियों के साथ बातचीत Anthropic मॉडल क्रैकडाउन से पहले हुई

एक WSJ रिपोर्ट में विस्तार से बताया गया है कि Amazon CEO एंडी जैसी की अमेरिकी अधिकारियों के साथ बातचीत संघीय कार्रवाई से पहले हुई, जिसने सरकारी संदर्भों में Anthropic के Claude मॉडलों के परिनियोजन को प्रतिबंधित किया। इस क्रैकडाउन से संघीय एजेंसियों, रक्षा ठेकेदारों, या अन्य विनियमित उद्योगों में AI शिप करने वाले किसी भी बिल्डर के लिए एक नया अनुपालन चेकपॉइंट आया है, जहां मॉडल चयन अब क्षमता और लागत विचारों के साथ-साथ एक नीति परत के तहत संचालित होता है।

डेवलपर्स के लिए, व्यावहारिक प्रभाव मॉडल API самих,而不是部署管道中。यदि आपकी आर्किटेक्चर किसी भी सरकार-संबंधित वर्कलोड के लिए Claude-फैमिली मॉडलों के माध्यम से इंफरेंस को रूट करती है, तो परिनियोजन परत को अब सामान्य क्षमता फ़िल्टरों के साथ-साथ एक नीति गेट की भी आवश्यकता है। सुरक्षा और अनुपालन टीमें ऑडिट ट्रेल देखना चाहेंगी जो यह दर्शाती हैं कि किस मॉडल ने किस रिक्वेस्ट क्लास को हैंडल किया, विशेषकर संवेदनशील सिस्टम को छूने वाले कोड जनरेशन के लिए।

ठोस तंत्र परिनियोजन पर एक बाधा है, इंफरेंस गुणवत्ता या विलंबता पर नहीं। विनियमित वातावरण में मॉडल चयन कॉन्फ़िगरेशन के लिए एक स्वीकृत-मॉडल सूची की आवश्यकता है जो प्रभावित Claude वेरिएंट को बाहर करती है। संघीय अनुबंधों पर एजेंटिक कोडिंग वर्कफ्लो चलाने वाली टीमों को उम्मीद करनी चाहिए कि प्रक्रिया भाषा में डिपेंडेंसी के लिए पहले से ही सॉफ्टवेयर बिल ऑफ मैटेरियल्स की आवश्यकता होती है, उसी तरह मॉडल प्रवvenance प्रमाणन की आवश्यकता होगी। SDK कॉल самих не меняются, но теперь среда выполнения находится за шагом авторизации развертывания, которого не существовало неделю назад।

आगे क्या देखना है: आधिकारिक FedRAMP मार्गदर्शन अपडेट, GSA स्वीकृत-वेंडर सूची संशोधन, और Anthropic से कोई स्पष्टीकरण स्टेटमेंट कि कौन से मॉडल संस्करण विनियमित संदर्भों में परिनियोहन योग्य बने रहते हैं। हेल्थकेयर और फाइनेंस में बिल्डर्स को यह भी ट्रैक करना चाहिए कि क्या समान प्रतिबंध उन क्षेत्रों में फैलते हैं, क्योंकि नीति पैटर्न अक्सर विनियमित उद्योगों में प्रवास करते हैं। बिल्डर वर्कफ्लो के लिए तात्कालिक जोखिम Claude का उपयोग करने पर प्रतिबंध नहीं है, बल्कि संघीय प्रणालियों से जुड़े किसी भी परिनियोजन पथ पर तब तक कठिन रोक है जब तक कि स्वीकृत-मॉडल सूची अपडेट नहीं हो जाती।

[10:38] Endor Labs: Claude Fable 5 कोडिंग परिणाम हाइप के बावजूद मिड-टियर में

Endor Labs ने कोडिंग टास्क पर Claude Fable 5 मॉडल का मूल्यांकन प्रकाशित किया, और मुख्य खोज मिड-टियर प्रदर्शन है — एक परिणाम जिसे लेखन ने स्पष्ट रूप से लॉन्च हाइप के साथ गलत संरेखित के रूप में फ्रेम किया है। 'मिथोस-ग्रेड' प्रमोशन को आह्वान करने के लिए शीर्षक वाले इस लेख में तर्क दिया गया है कि मॉडल के आसपास का मार्केटिंग नैरेटिव उससे आगे निकल गया है जो कोडिंग मूल्यांकन प्रदर्शित करता है। लेख के आसपास का Hacker News थ्रेड 405 पॉइंट्स पर पहुंचा, जिसने प्रकाशन के कुछ ही घंटों में मूल्यांकन को एक बड़े डेवलपर ऑडियंस के सामने ला दिया।

कहानी का तकनीकी मूल सीधा है: एक थर्ड-पार्टी सुरक्षा और सॉफ्टवेयर सप्लाई चेन फर्म ने एक मॉडल पर अपना बेंचमार्क लेंस लगाया जिसे भारी पदोन्नति मिली थी, और परिणाम ने इसे कोडिंग लीडरबोर्ड के मध्य बैंड में रखा। कोडिंग बेंचमार्क आमतौर पर मल्टी-स्टेप प्रोग्रामिंग समस्याओं पर कार्यात्मक सटीकता, कोड पूर्णता सटीकता और वास्तविक बाधाओं के तहत विशिष्टताओं का पालन करने की मॉडल की क्षमता को मापते हैं। Endor Labs ने तुलना को चीयर-पिक्ड मूल्यांकनों के बजाय स्थापित कोडिंग रैंकिंग के खिलाफ सेब-टू-सेब के रूप में फ्रेम किया। लेख का सुरक्षा लेंस भी मायने रखता है — फर्म की AI-असिस्टेड कोड जनरेशन में बेक किए गए रनटाइम और सप्लाई चेन अनुमानों की जांच करने की ट्रैक रिकॉर्ड है, और यह मूल्यांकन एक नव-लॉन्च मॉडल तक उस पोस्चर को विस्तारित करता है।

एजेंट स्टैक्स चलाने वाले बिल्डर्स के लिए, स्वतंत्र बेंचमार्क ड्रॉप्स का टाइमिंग खुद एक वर्कफ्लो सिग्नल है। वेंडर लॉन्च अनाउंसमेंट अब तीसरे पक्ष की समीक्षाओं के साथ या उसके बाद आते हैं जो मॉडल को वास्तविक कोडिंग कार्य पर ग्रेड करती हैं, और प्रमोशनल क्लेम्स और मापे गए प्रदर्शन के बीच का अंतर एक प्रोक्योरमेंट-लेवल डेटा पॉइंट बनता जा रहा है। डिप्लॉयमेंट सवाल 'क्या हम इस मॉडल पर ट्रैफिक रूट कर सकते हैं' से बदलकर 'क्या मॉडल का मापा गया कोडिंग एक्यूरेसी API स्पेंड और प्रॉम्प्ट-इंजीनियरिंग ओवरहेड को जस्टिफाई करता है' हो जाता है।

ध्यान देने योग्य बात यह है कि क्या अधिक लॉन्च-वीक बेंचमार्क क्रिटिक्स इस स्केल पर आते हैं, और क्या मिड-टियर कोडिंग रिजल्ट्स इंजीनियरिंग टीमों को उन स्थापित मॉडल्स की ओर धकेलते हैं जो लगातार स्वतंत्र रैंकिंग्स के शीर्ष पर रहते हैं। यह बातचीत अभी भी अनुमान लागत और विलंबता के बीच समझौतों को उजागर करती है जब टीमें वास्तव में इन मॉडल्स को अपने रनटाइम में जोड़ती हैं।

[12:24] OpenAI Academy एजेंट बिल्डर्स के लिए तीन वर्कफ्लो कोर्स जोड़ता है

OpenAI ने 12 जून को OpenAI Academy में तीन नए कोर्स जोड़े, जो उन काम करने वाले पेशेवरों को लक्षित करते हैं जो AI टूल्स के साथ अनौपचारिक प्रयोग से आगे बढ़ना चाहते हैं। पाठ्यक्रम व्यावहारिक कौशल निर्माण, दोहरावदार वर्कफ्लो डिज़ाइन, और रोज़मर्रा के काम के संदर्भों में एजेंट्स को लागू करने पर केंद्रित है। प्रत्येक कोर्स अमूर्त अवधारणाओं के बजाय ठोस पैटर्न के इर्द-गिर्द संरचित है, जिसमें एम्बेडेड अभ्यास शामिल हैं जो प्रॉम्प्ट निर्माण, एजेंट ऑर्केस्ट्रेशन, और सामान्य प्रोडक्टिविटी API के साथ एकीकरण के माध्यम से चलते हैं।

पहला कोर्स OpenAI API के साथ प्रोडक्टिविटी उपयोग केस के लिए मूल बातें शामिल करता है, जिसमें प्रॉम्प्ट डिज़ाइन और विश्वसनीय आउटपुट के लिए अनुरोधों को कैसे संरचित करना है शामिल है। दूसरा कोर्स दोहरावदार वर्कफ्लो बनाने पर केंद्रित है — अनिवार्य रूप से प्रॉम्प्ट्स, वैलिडेशन स्टेप्स, और टूल कॉल्स को टेम्पलेट्स में पैकेज करने की इंजीनियरिंग प्रैक्टिस जिसे अन्य टीम के सदस्य चला सकते हैं। तीसरा कोर्स एजेंट एप्लिकेशन को लक्षित करता है: कब किसी टास्क को एजेंट को सौंपना है बनाम इसे सिंगल API कॉल के साथ संभालना, और मल्टी-स्टेप एजेंट टास्क्स को कैसे डिज़ाइन करना है जो विश्वसनीय रूप से पूर्ण हों।

बिल्डर्स के लिए, टेम्पलेटेड वर्कफ्लो पैटर्न में व्यावहारिक मूल्य है। कोर्स सामग्री में सामान्य एजेंट आर्किटेक्चर के लिए सैंपल कॉन्फ़िगरेशन शामिल हैं, साथ ही एक्सटर्नल टूल्स से एजेंट्स को API कॉल्स के माध्यम से जोड़ने के लिए रेसिपीज़। यह वह हिस्सा है जो सीधे वास्तविक काम से मैप होता है: अधिकांश टीमें एजेंट्स को डिप्लॉय करते समय एक जैसे फ्रिक्शन पॉइंट्स का सामना करती हैं, और एरर हैंडलिंग, रीट्राय लॉजिक, और आउटपुट वैलिडेशन जैसी चीजों के लिए एक प्रलेखित पैटर्न होने से वास्तव में कोई भी व्यक्ति जो प्रोडक्शन रनटाइम में शिप कर रहा है उसके लिए उपयोगी है।

सीमा यह है कि यह शिक्षा है, टूलिंग नहीं। कोर्स पैटर्न सिखाते हैं लेकिन एक नया SDK, डिप्लॉयमेंट टारगेट, या इन्फरेंस ऑप्टिमाइज़ेशन शिप नहीं करते। बिल्डर्स के लिए जो बदलता है वह मुफ्त, संरचित ट्रेनिंग पाथ तक एक्सेस है जो सामान्य AI साक्षरता को ठोस API उपयोग और आर्किटेक्चर निर्णयों से जोड़ता है। आगे देखने के लिए: क्या पाठ्यक्रम विशिष्ट एजेंट रनटाइम्स को कवर करने के लिए विकसित होता है या पैटर्न-और-कॉन्फ़िगरेशन लेवल पर रहता है। एजेंट्स के निर्माण के तरीके को स्टैंडर्डाइज़ करने वाली टीमों के लिए, अगले प्लानिंग चक्र से पहले इसके माध्यम से काम करना इसके काबिल है।

[14:00] आर्किटेक्ट-लूप टोकन उपयोग कम करने के लिए Fable रिव्यूअर को Codex बिल्डर के साथ जोड़ता है

DanMcInerney से आर्किटेक्ट-लूप प्रोजेक्ट Hacker News पर 104 स्कोर के साथ उतरा, जो एक विशिष्ट मल्टी-एजेंट ऑर्केस्ट्रेशन पैटर्न पर ध्यान आकर्षित कर रहा है। प्रोजेक्ट दो AI कोडिंग एजेंट्स के बीच काम को विभाजित करता है: Fable समीक्षा और प्लानिंग को संभालता है, जबकि Codex वास्तविक कोड कंस्ट्रक्शन को संभालता है। मुख्य दावा यह है कि Fable रिव्यूअर द्वारा खपाए गए टोकन में 80% की कमी आई है, जब इसे पूर्ण कोड संदर्भ पर चलाया जाता है।

रनटाइम आर्किटेक्चर सीधा है। Fable को ऑर्केस्ट्रेटर के रूप में पोजिशन किया गया है। यह जो बनाया गया है उसकी समीक्षा करता है, तय करता है कि आगे क्या बनाना है, और कार्यान्वयन टास्क को Codex को सौंपता है। Codex बदलाव करता है और लौटता है। लूप जारी रहता है। मुख्य इनसाइट यह है कि Fable कभी भी थोक में कच्ची स्रोत फ़ाइलों को प्रोसेस नहीं करता; यह सारांशों और संरचित समीक्षा आर्टिफैक्ट्स पर ऑपरेट करता है। यह एकल डिज़ाइन चॉइस ही टोकन कमी को ड्राइव करती है, क्योंकि इन्फरेंस लागत उस संदर्भ विंडो के साइज़ के साथ स्केल होती है जिसे समीक्षक को अटेंड करना चाहिए।

मल्टी-एजेंट वर्कफ़्लो पहले से चलाने वाले बिल्डर्स के लिए, यह प्रोजेक्ट एक व्यावहारिक पाठ सामने लाता है: लूप में सबसे महंगा एजेंट आमतौर पर रिव्यूअर होता है, क्योंकि रिव्यूअर सब कुछ दो बार देखता है। बिल्डिंग स्टेप को एक अलग एक्जीक्यूशन एजेंट को सौंपना और प्लानर को केवल स्ट्रक्चर्ड सारांश फीड करना रिव्यूअर के कॉन्टेक्स्ट विंडो को संकरा रखता है। कोडबेस GitHub पर architect-loop रिपॉजिटरी के तहत ओपन सोर्स है।

आगे देखने योग्य बात: क्या यह पैटर्न बड़े कोडबेस पर काम करता है जहां Fable के सारांशों को अधिक स्टेट कैप्चर करने की जरूरत है, और क्या अन्य मल्टी-एजेंट हैनेस प्रोजेक्ट समान प्लानर-बिल्डर सेपरेशन अपनाते हैं। 80% का आंकड़ा प्रोजेक्ट के अपने बेंचमार्क से आता है, इसलिए अलग स्टैक पर स्वतंत्र वैलिडेशन अगला सignal है जिस पर नज़र रखना worth है।

[15:38] Claude Fable Agent Harness के ज़रिए पूरा Shepherd's Dog गेम बनाता है

डेवलपर Koen van Gilst ने Shepherd's Dog प्रकाशित किया, एक प्लेबल गेम जो पूरी तरह से Claude को प्राइमरी कोड ऑथर के रूप में उपयोग करके एक कस्टम ऑर्केस्ट्रेशन हैनेस Fable के तहत एंड-टू-एंड बनाया गया। प्रोजेक्ट Hacker News पर सामने आया और सुसंगत चर्चा को आकर्षित किया, जिसने इस काम को AI-ड्रिवन गेम क्रिएशन के रेफरेंस उदाहरण के रूप में पोजीशन किया, न कि एक typical डेमो या स्निपेट शोकेस के रूप में।

Fable का आर्किटेक्चर Claude को एक एजेंटिक लूप में रैप करने लगता है जो गेम सोर्स जेनरेट करता है, उसे रनटाइम में चलाता है, और परिणाम पर इटरेट करता है। यह पैटर्न मॉडल को पूरे बिल्ड आर्टिफैक्ट का लेखक मानता है, isolated फंक्शन्स रिटर्न करने वाले कम्प्लीशन टूल के बजाय। प्रोजेक्ट पब्लिकली उपलब्ध हैनेस के साथ आता है, इसलिए अन्य बिल्डर्स ऑर्केस्ट्रेशन एप्रोच का अध्ययन कर सकते हैं और उन्हीं को app या गेम जेनरेशन में अपने प्रयोगों पर लागू कर सकते हैं।

डेवलपर्स के लिए, प्रासंगिकता प्रोजेक्ट द्वारा निर्धारित व्यावहारिक सीलिंग है। एक व्यक्ति, एक फोकस्ड सेशन में काम करते हुए, Claude को इम्प्लीमेंटेशन का बड़ा हिस्सा संभालने देकर एक पूरा प्लेबल टाइटल बनाया। रनटाइम conventional वेब गेम टेक्नोलॉजी है, जिसका मतलब है कि एंट्री की लागत उन किसी के लिए भी कम है जो पैटर्न को दोहराना चाहते हैं। सीमा जो देखने योग्य है वह रिप्रोड्यूसिबिलिटी है, क्योंकि मॉडल आउटपुट नॉन-डिटर्मिनिस्टिक है, वह exact Shepherd's Dog जो शिप हुआ वह वही नहीं हो सकता जो दूसरा डेवलपर उसी प्रॉम्प्ट से प्रोड्यूस करेगा। देखें कि क्या Fable के ऑथर हैनेस को अधिक रीयूजेबल फॉर्म में औपचारिक बनाते हैं, और क्या आने वाले हफ्तों में अन्य बिल्डर्स से समान एंड-टू-एंड गेम प्रोजेक्ट सामने आते हैं।

[17:08] Preply ने OpenAI द्वारा संचालित AI-जेनरेटेड लेसन सारांश लॉन्च किए

Preply ने 12 जून, 2026 को AI-जेनरेटेड लेसन सारांश लॉन्च किए, जो लाइव ट्यूटरिंग सेशन को व्यक्तिगत रिकैप्स में बदलने के लिए OpenAI का उपयोग करता है। यह फीचर, एक OpenAI केस स्टडी में विस्तृत, हर क्लास के बाद लर्नर्स को एक स्ट्रक्चर्ड फॉलो-अप देता है: कवर की गई सामग्री का सारांश, शब्दावली रीइन्फोर्समेंट, और सुझाए गए प्रैक्टिस एक्सरसाइज़। ट्यूटर्स लाइव सेशन का नेतृत्व जारी रखते हैं, लेकिन मॉडल पोस्ट-क्लास राइटअप संभालता है।

आर्किटेक्चर एक पतली ऑर्केस्ट्रेशन लेयर है। Preply संभवतः सेशन कॉन्टेक्स्ट, ज्यादातर ट्रांसक्रिप्ट या ट्यूटर नोट्स, OpenAI के API में फीड करता है और स्ट्रक्चर्ड रिस्पॉन्स वापस प्राप्त करता है जिसे लर्निंग प्लेटफॉर्म रिकैप के रूप में रेंडर करता है। इंफरेंस OpenAI के होस्टेड मॉडल पर चलता है, इसलिए Preply अपना खुद का डिप्लॉयमेंट नहीं लगा रहा है। वैल्यू प्रॉम्प्ट डिज़ाइन में है, आउटपुट के स्कीमा में, और उस आउटपुट के लर्नर के मौजूदा डैशबोर्ड में कैसे फिट होता है।

बिल्डर्स के लिए यह एक उपयोगी पैटर्न है: जनरेटिव मॉडल्स को मानव सेवा के ऊपर पोस्ट-प्रोसेसिंग स्टेप के रूप में। मनुष्य अभी भी हाई-जजमेंट वर्क करता है जैसे टीचिंग, कन्वर्सेशन, और रियल-टाइम असेसमेंट, जबकि मॉडल सारांश, एक्सरसाइज जेनरेशन, और व्यक्तिगत रीइन्फोर्समेंट के डिटर्मिनिस्टिक-बट-टेडियस स्टेप को संभालता है। रनटाइम की लागत बाउंडेड है क्योंकि हर सारांश एक इंफरेंस कॉल है, और लेटेंसी नॉन-क्रिटिकल है क्योंकि जेनरेशन सेशन के बाद चलता है।

क्या देखना है: क्या Preply अपनी प्रॉम्प्ट संरचना या आउटपुट स्कीमा सार्वजनिक रूप से प्रकट करता है, क्योंकि यह बिल्डर्स के लिए पैटर्न को दोहराने का सबसे उपयोगी आर्टिफैक्ट होगा। जो जोखिम फ्लैग करना है वह इस श्रेणी की सुविधा के लिए सामान्य है — सारांश भ्रम कर सकते हैं और एक मानव समीक्षा पथ की आवश्यकता होती है, विशेष रूप से उन भुगतान करने वाले भाषा शिक्षुओं के लिए जो अपनी वास्तविक गलतियों पर सटीक प्रतिक्रिया की उम्मीद करते हैं।

[19:00] व्यावहारिक कतार

आज की कहानियों से: इसका क्या मतलब है: विषम GPU पूल — पुराने कंज्यूमर कार्ड सहित — उपयोग योग्य गति पर स्थानीय LLM इंफरेंस के लिए व्यवहार्य बने हुए हैं। इसका क्या मतलब है कि OSS मेंटेनर्स के पास अब Codex एक्सेस का अनुरोध करने के लिए एक औपचारिक इंटेक है, लेकिन कोटा, पात्रता, और उस दरवाजे के पीछे का मॉडल टियर अप्रकट है। जनरेटेड UI शिप करने वाले बिल्डर्स के लिए व्यावहारिक कदम यह है कि स्पष्ट डिज़ाइन टोकन और प्रोजेक्ट-विशिष्ट कंपोनेंट लाइब्रेरी के साथ मॉडल को बाधित करें ताकि आउटपुट हर दूसरे LLM-जनरेटेड लैंडिंग पेज जैसा न दिखे। जब एक्सेस वापस आए तो Fable का उपयोग करने की योजना बनाने वाले बिल्डर्स के लिए, "अनवरत सक्रियता" के लिए ट्यून करने का सही समय अभी है — सैंडबॉक्स सीमाओं और diff समीक्षा को अपने हार्नेस में एन्कोड करें जब आप किसी लाइव प्रोडक्शन कोडबेस पर गलती से परीक्षण नहीं कर सकते। विनियमित परिनियोजन के लिए, मॉडल-राउटिंग मार्गदर्शन itself prior episode से अपरिवर्तित है; नया अक्ष वेंडर राजनीतिक संरेखण है, जिसे now capability and cost के साथ-साथ मॉडल-चयन निर्णय मैट्रिक्स में मूल्यांकित किया जाना चाहिए। इसका मतलब है कि स्वतंत्र बेंचमार्क मॉडल लॉन्च के几天内 दस्तावेज़ हो रहे हैं, और वेंडर दावों और मмерен coding प्रदर्शन के बीच का अंतर एकprocurement संकेत है जिस पर नज़र रखना है। कोर्स टीमों के लिए एजेंट वर्कफ़्लो को औपचारिक रूप देने के लिए मुफ़्त प्रशिक्षण हैं, और दोहराव योग्य पैटर्न पर ध्यान का मतलब है कि बिल्डर्स पाठों को सीधे आंतरिक दस्तावेज़ीकरण में मैप कर सकते हैं। प्लानिंग को execution से अलग करने से आप भारी काम को एक सस्ते या अधिक सक्षम मॉडल पर रूट कर सकते हैं जबकि महंगी समीक्षा पास को सारांश आर्टिफैक्ट के लिए आरक्षित रखते हैं। इसका क्या मतलब है: बिल्डर्स इसे मानव सेवाओं के ऊपर जनरेटिव मॉडल की परत के लिए एक टेम्पलेट के रूप में मान सकते हैं, जहां मॉडल संरचित सारांश को संभालता है और मनुष्य उच्च-निर्णय वाले काम को रखते हैं।

🎙 Never miss an episode — subscribe now

🎙 Subscribe to AgentStack Daily