हार्डवेयर डीप डाइव — स्थानीय मॉडल विफलताओं को ठीक करना — Episode 0 cover art
Episode 0·18 फ़रवरी 2026·15:45

हार्डवेयर डीप डाइव — स्थानीय मॉडल विफलताओं को ठीक करना

एपिसोड 0 में Clarity (Qwen3-Coder 30B) के कॉन्टेक्स्ट ओवरफ्लो बग, एक पूर्ण हार्डवेयर तुलना (NVIDIA DGX Spark, Mac Studio M3 Ultra, AMD Ryzen AI Max+ 395, AMD MI300X) और कॉन्फ़िगरेशन फिक्स शामिल है। Show notes: https://tobyonfitnesstech.com/hi/podcasts/episode-0/

🎧 Listen to Episode

Episode 0: Hardware Deep Dive - स्थानीय मॉडल विफलताओं को ठीक करना

तारीख: 18 फरवरी 2026 अवधि: 11:45 होस्ट: Nova & Alloy


शो नोट्स

विषय

  1. कॉन्टेक्स्ट ओवरफ्लो बग — Clarity (कोडिंग एजेंट, Qwen3-Coder-30B) बार-बार कार्य के बीच में कॉन्टेक्स्ट ओवरफ्लो त्रुटियों का सामना कर रही थी। मूल कारण: एक Ollama मॉडल परिभाषा जिसे v-128k नाम दिया गया था जिसने संदर्भ को 131,072 टोकन तक सीमित कर दिया, जबकि मूल रूप से मॉडल 262,144 टोकन का समर्थन करता है। सेटअप दिन का एक कॉन्फ़िग लेबल गलती से कठोर सीमा बन गया।

  2. टाइमआउट गणित — 18 फरवरी को सुबह 11:15 बजे, 146,760 टोकन 131,072-टोकन सीमा के विरुद्ध पूछे गए। ~400 टोकन/सेकंड प्री-फिल गति पर, 146K टोकन को संसाधित करने में 6+ मिनट लगते हैं। टाइमआउट सीमा 5 मिनट थी। लगातार तीन बार — क्रैश नहीं, अस्थिरता नहीं — गणित द्वारा पूरी तरह से समझाया गया।

  3. Qwen3-Coder मेमोरी आर्किटेक्चर — Qwen3-Coder 30B एक Mixture-of-Experts मॉडल है जिसमें केवल 4 KV अटेंशन हेड हैं (बनाम LLaMA-3 8B के 8)। 262K संदर्भ पर: ~15 GB मॉडल वेट + ~24 GB KV कैश + OS ओवरहेड ≈ 44 GB कुल। 64 GB यूनिफाइड मेमोरी वाली मशीन में 20 GB का मार्जिन है। हार्डवेयर पूरे समय ठीक था।

  4. हार्डवेयर विकल्प 1: NVIDIA DGX Spark ($3,000) — GB10 Grace Blackwell चिप, 128 GB LPDDR5X, 273 GB/s मेमोरी बैंडविड्थ। विपरीत रूप से Mac Studio M2 Ultra (~800 GB/s) से कम बैंडविड्थ। FP4 टेंसर कोर (70B पर 25-50 tok/s बनाम वर्तमान 10-15) से compensate करता है। Linux-केवल साइडकार; 405B+ मॉडल चलाने के लिए $6K में दो यूनिट लिंक करें।

  5. हार्डवेयर विकल्प 2: Mac Studio M3 Ultra — $4,000 (192 GB) से $8-10K (512 GB)। 819 GB/s बैंडविड्थ, Apple बेंचमार्क के अनुसार M2 Ultra से 2.1x तेज। 70B मॉडल पर 20-32 tok/s। 192 GB कॉन्फ़िगरेशन 30B + 70B मॉडल को स्वैपिंग के बिना एक साथ लोड करना सक्षम बनाता है। 512 GB कॉन्फ़िगरेशन LLaMA 3.1 405B को स्थानीय रूप से चलाने का एकमात्र उपभोक्ता मार्ग है।

  6. हार्डवेयर विकल्प 3: AMD — दो अलग-अलग किस्से:

    • Threadripper + dual RX 7900 XTX ($5-6K): विभाजित VRAM समस्या, ROCm CUDA से पिछड़ा। कड़ी अस्वीकृति।
    • Ryzen AI Max+ 395 "Strix Halo" ($2,000-$2,500): Apple Silicon का AMD का जवाब — 128 GB LPDDR5X तक CPU/GPU/NPA यूनिफाइड मेमोरी। Framework Desktop AMD या ASUS ROG Flow Z13। मेमोरी बैंडविड्थ 256 GB/s (256-बिट बस), M2 Ultra से ~3x कम — दोगुने एड्रेसेबल RAM के बावजूद प्रतिस्पर्धी गति। 128 GB यूनिफाइड मेमोरी का सबसे अच्छा बजट मार्ग।
    • AMD MI300X ($25K, एंटरप्राइज): 192 GB HBM3, 5.3 TB/s बैंडविड्थ, 70B पर 80-120 tok/s। पूर्णता के लिए उल्लेख; उपभोक्ता खरीद नहीं।
  7. वर्कफ़्लो स्ट्रैटेजी: हाइब्रिड लोकल + क्लाउड — भारी मल्टी-फ़ाइल एडिट (5+ टेम्पलेट, बड़े कोडबेस रिफैक्टर) कुल वर्कलोड का ~20% है। गैर-निजी कोड के लिए: Devstral मुफ्त Mistral API टियर पर 262K मूल संदर्भ प्रदान करता है; Gemini 2.5 Pro 1 मिलियन टोकन प्रदान करता है। सही सवाल "मैं अपने सबसे कठिन कार्य स्थानीय रूप से कैसे चलाऊं?" नहीं है — यह "मेरे सबसे कठिन कार्य स्थानीय होने चाहिए क्या?"

  8. फिक्स — कॉन्फ़िग पैच + नई Ollama मॉडल परिभाषा पूर्ण 262K संदर्भ विंडो अनलॉक करने के लिए। रिसर्च के दौरान लाइव किया। शून्य लागत।

हार्डवेयर संसाधन

  • Apple Mac Mini - स्थानीय AI के लिए अनुशंसित
  • Raspberry Pi 5 - बजट विकल्प
  • Ollama - स्थानीय LLM रनटाइम

मुख्य निष्कर्ष

  1. एक मॉडल लेबल क्षमता की सीमा नहीं है। Ollama मॉडल नाम qwen3-coder:30b-262k ने सच बताया; क्रिएशन-टाइम लेबल ने नहीं। हमेशा मॉडल के वास्तविक स्पेक के विरुद्ध संदर्भ विंडो कॉन्फ़िगरेशन सत्यापित करें।
  2. टोकन जनरेशन मेमोरी-बैंडविथ-बाउंड है, कंप्यूट-बाउंड नहीं। DGX Spark में Mac Studio से कम मेमोरी बैंडविड्थ है। बैंडविड्थ बाधा है — हमेशा GB/s जांचें, केवल GB नहीं।
  3. Strix Halo (Ryzen AI Max+ 395) 128 GB यूनिफाइड मेमोरी का सबसे सस्ता मार्ग है। $3K से कम में कोई अन्य विकल्प नहीं। ट्रेड-ऑफ़ Apple Silicon से ~3x कम बैंडविड्थ है।
  4. खरीदने से पहले निदान करें। तीन परतों के गलत कॉन्फ़िगरेशन (गलत संदर्भ कैप + टाइमआउट बहुत कम + मॉडल कैप पार) हार्डवेयर विफलता दिखे। वे पूरी तरह से कॉन्फ़िग-फिक्सेबल थे।
  5. हाइब्रिड लोकल/क्लाउड स्प्लिट वास्तविक दक्षता लीवर है। भारी-संदर्भ, गैर-निजी कार्यों के 20% को Devstral या Gemini 2.5 Pro पर शिफ्ट करें। बाकी 80% स्थानीय रूप से चलाएं जहां गोपनीयता मायने रखती है।

संसाधन और लिंक

आइटम विवरण
Qwen3-Coder 30B Ollama: ollama pull qwen3-coder:30b-262k
NVIDIA DGX Spark $3,000 — nvidia.com/en-us/project-digits
Mac Studio M3 Ultra $3,999 (192 GB) / $7,999+ (512 GB) — apple.com
AMD Ryzen AI Max+ 395 Framework Desktop AMD Edition ~$2,000-$2,500
ASUS ROG Flow Z13 $2,499 — Ryzen AI Max+ 395, 128 GB तक
AMD MI300X $25,000+ एंटरप्राइज़ — संदर्भ के लिए ही
Devstral 262K संदर्भ, फ्री टियर — mistral.ai
Gemini 2.5 Pro 1M संदर्भ — aistudio.google.com
llama.cpp CPU इंफेरेंस बैकएंड — github.com/ggerganov/llama.cpp
Ollama स्थानीय मॉडल रनटाइम — ollama.com

🎙 Never miss an episode — subscribe now

🎙 Subscribe to OpenClaw Daily