Episode 0: हार्डवेयर डीप डाइव — स्थानीय मॉडल विफलताओं को

Episode 0: Hardware Deep Dive - स्थानीय मॉडल विफलताओं को ठीक करना

तारीख: 18 फरवरी 2026 अवधि: 11:45 होस्ट: Nova & Alloy

शो नोट्स

विषय

कॉन्टेक्स्ट ओवरफ्लो बग — Clarity (कोडिंग एजेंट, Qwen3-Coder-30B) बार-बार कार्य के बीच में कॉन्टेक्स्ट ओवरफ्लो त्रुटियों का सामना कर रही थी। मूल कारण: एक Ollama मॉडल परिभाषा जिसे v-128k नाम दिया गया था जिसने संदर्भ को 131,072 टोकन तक सीमित कर दिया, जबकि मूल रूप से मॉडल 262,144 टोकन का समर्थन करता है। सेटअप दिन का एक कॉन्फ़िग लेबल गलती से कठोर सीमा बन गया।
टाइमआउट गणित — 18 फरवरी को सुबह 11:15 बजे, 146,760 टोकन 131,072-टोकन सीमा के विरुद्ध पूछे गए। ~400 टोकन/सेकंड प्री-फिल गति पर, 146K टोकन को संसाधित करने में 6+ मिनट लगते हैं। टाइमआउट सीमा 5 मिनट थी। लगातार तीन बार — क्रैश नहीं, अस्थिरता नहीं — गणित द्वारा पूरी तरह से समझाया गया।
Qwen3-Coder मेमोरी आर्किटेक्चर — Qwen3-Coder 30B एक Mixture-of-Experts मॉडल है जिसमें केवल 4 KV अटेंशन हेड हैं (बनाम LLaMA-3 8B के 8)। 262K संदर्भ पर: ~15 GB मॉडल वेट + ~24 GB KV कैश + OS ओवरहेड ≈ 44 GB कुल। 64 GB यूनिफाइड मेमोरी वाली मशीन में 20 GB का मार्जिन है। हार्डवेयर पूरे समय ठीक था।
हार्डवेयर विकल्प 1: NVIDIA DGX Spark ($3,000) — GB10 Grace Blackwell चिप, 128 GB LPDDR5X, 273 GB/s मेमोरी बैंडविड्थ। विपरीत रूप से Mac Studio M2 Ultra (~800 GB/s) से कम बैंडविड्थ। FP4 टेंसर कोर (70B पर 25-50 tok/s बनाम वर्तमान 10-15) से compensate करता है। Linux-केवल साइडकार; 405B+ मॉडल चलाने के लिए $6K में दो यूनिट लिंक करें।
हार्डवेयर विकल्प 2: Mac Studio M3 Ultra — $4,000 (192 GB) से $8-10K (512 GB)। 819 GB/s बैंडविड्थ, Apple बेंचमार्क के अनुसार M2 Ultra से 2.1x तेज। 70B मॉडल पर 20-32 tok/s। 192 GB कॉन्फ़िगरेशन 30B + 70B मॉडल को स्वैपिंग के बिना एक साथ लोड करना सक्षम बनाता है। 512 GB कॉन्फ़िगरेशन LLaMA 3.1 405B को स्थानीय रूप से चलाने का एकमात्र उपभोक्ता मार्ग है।
हार्डवेयर विकल्प 3: AMD — दो अलग-अलग किस्से:
- Threadripper + dual RX 7900 XTX ($5-6K): विभाजित VRAM समस्या, ROCm CUDA से पिछड़ा। कड़ी अस्वीकृति।
- Ryzen AI Max+ 395 "Strix Halo" ($2,000-$2,500): Apple Silicon का AMD का जवाब — 128 GB LPDDR5X तक CPU/GPU/NPA यूनिफाइड मेमोरी। Framework Desktop AMD या ASUS ROG Flow Z13। मेमोरी बैंडविड्थ 256 GB/s (256-बिट बस), M2 Ultra से ~3x कम — दोगुने एड्रेसेबल RAM के बावजूद प्रतिस्पर्धी गति। 128 GB यूनिफाइड मेमोरी का सबसे अच्छा बजट मार्ग।
- AMD MI300X ($25K, एंटरप्राइज): 192 GB HBM3, 5.3 TB/s बैंडविड्थ, 70B पर 80-120 tok/s। पूर्णता के लिए उल्लेख; उपभोक्ता खरीद नहीं।
वर्कफ़्लो स्ट्रैटेजी: हाइब्रिड लोकल + क्लाउड — भारी मल्टी-फ़ाइल एडिट (5+ टेम्पलेट, बड़े कोडबेस रिफैक्टर) कुल वर्कलोड का ~20% है। गैर-निजी कोड के लिए: Devstral मुफ्त Mistral API टियर पर 262K मूल संदर्भ प्रदान करता है; Gemini 2.5 Pro 1 मिलियन टोकन प्रदान करता है। सही सवाल "मैं अपने सबसे कठिन कार्य स्थानीय रूप से कैसे चलाऊं?" नहीं है — यह "मेरे सबसे कठिन कार्य स्थानीय होने चाहिए क्या?"
फिक्स — कॉन्फ़िग पैच + नई Ollama मॉडल परिभाषा पूर्ण 262K संदर्भ विंडो अनलॉक करने के लिए। रिसर्च के दौरान लाइव किया। शून्य लागत।

हार्डवेयर संसाधन

Apple Mac Mini - स्थानीय AI के लिए अनुशंसित
Raspberry Pi 5 - बजट विकल्प
Ollama - स्थानीय LLM रनटाइम

मुख्य निष्कर्ष

एक मॉडल लेबल क्षमता की सीमा नहीं है। Ollama मॉडल नाम qwen3-coder:30b-262k ने सच बताया; क्रिएशन-टाइम लेबल ने नहीं। हमेशा मॉडल के वास्तविक स्पेक के विरुद्ध संदर्भ विंडो कॉन्फ़िगरेशन सत्यापित करें।
टोकन जनरेशन मेमोरी-बैंडविथ-बाउंड है, कंप्यूट-बाउंड नहीं। DGX Spark में Mac Studio से कम मेमोरी बैंडविड्थ है। बैंडविड्थ बाधा है — हमेशा GB/s जांचें, केवल GB नहीं।
Strix Halo (Ryzen AI Max+ 395) 128 GB यूनिफाइड मेमोरी का सबसे सस्ता मार्ग है। $3K से कम में कोई अन्य विकल्प नहीं। ट्रेड-ऑफ़ Apple Silicon से ~3x कम बैंडविड्थ है।
खरीदने से पहले निदान करें। तीन परतों के गलत कॉन्फ़िगरेशन (गलत संदर्भ कैप + टाइमआउट बहुत कम + मॉडल कैप पार) हार्डवेयर विफलता दिखे। वे पूरी तरह से कॉन्फ़िग-फिक्सेबल थे।
हाइब्रिड लोकल/क्लाउड स्प्लिट वास्तविक दक्षता लीवर है। भारी-संदर्भ, गैर-निजी कार्यों के 20% को Devstral या Gemini 2.5 Pro पर शिफ्ट करें। बाकी 80% स्थानीय रूप से चलाएं जहां गोपनीयता मायने रखती है।

संसाधन और लिंक

आइटम	विवरण
Qwen3-Coder 30B	Ollama: `ollama pull qwen3-coder:30b-262k`
NVIDIA DGX Spark	$3,000 — nvidia.com/en-us/project-digits
Mac Studio M3 Ultra	$3,999 (192 GB) / $7,999+ (512 GB) — apple.com
AMD Ryzen AI Max+ 395	Framework Desktop AMD Edition ~$2,000-$2,500
ASUS ROG Flow Z13	$2,499 — Ryzen AI Max+ 395, 128 GB तक
AMD MI300X	$25,000+ एंटरप्राइज़ — संदर्भ के लिए ही
Devstral	262K संदर्भ, फ्री टियर — mistral.ai
Gemini 2.5 Pro	1M संदर्भ — aistudio.google.com
llama.cpp	CPU इंफेरेंस बैकएंड — github.com/ggerganov/llama.cpp
Ollama	स्थानीय मॉडल रनटाइम — ollama.com