Episode 52: स्थानीय एजेंटों को उनका हार्डवेयर सप्ताह

OpenClaw Daily EP052: लोकल एजेंट्स को मिलता है उनका हार्डवेयर वीक

इस एपिसोड में एजेंट स्टैक की छह ठोस चालों को ट्रैक किया गया है। गुरुत्वाकर्षण का केंद्र लोकल-फर्स्ट इन्फ्रास्ट्रक्चर है: लोकल मॉडल रनर्स, Apple Silicon एक्सेलेरेशन, DGX Spark एक लोकल-एजेंट मशीन के रूप में, EXO डिस्ट्रिब्यूटेड इन्फरेंस, कोडिंग-एजेंट CLIs, और गेटवे लेयर जो मॉडल राउटिंग को भंगुर होने से बचाती है।

[00:00] Ollama मॉडल रनर से कोडिंग-एजेंट प्लेटफॉर्म की ओर बढ़ता है

Ollama के हालिया रिलीज़ दिखाते हैं कि यह एक लोकल मॉडल सर्वर से अधिक बनता जा रहा है। बड़ी बातें हैं Ollama Launch के माध्यम से Codex App सपोर्ट, opencode लॉन्च के लिए विज़न-मॉडल सपोर्ट, Claude टूल रिज़ल्ट्स के लिए लोकल इमेज-पैथ फिक्स, और API शो रिस्पॉन्स कैशिंग जो मीडियन इंटीग्रेशन लोड लेटेंसी में लगभग 6.7x सुधार करती है।

अधिक महत्वपूर्ण फॉरवर्ड-लुकिंग आइटम 0.30.0 रिलीज़ कैंडिडेट है। Ollama कहता है कि वह संस्करण llama.cpp को सीधे सपोर्ट करने के लिए आर्किटेक्चर बदलता है, GGUF फ़ाइल कम्पैटिबिलिटी की अनुमति देता है, और Apple Silicon पर इन्फरेंस को एक्सेलेरेट करने के लिए MLX का उपयोग करता है। मई के पहले के काम ने भी MLX रनर में Gemma 4 MTP स्पेक्युलेटिव डिकोडिंग जोड़ा, Gemma 4 31B कोडिंग टास्क्स के लिए 2x से अधिक स्पीड इन्क्रीज़ का दावा किया गया।

व्यावहारिक पठन: Ollama कोडिंग एजेंट्स और डेस्कटॉप AI टूल्स के लिए एक लोकल रनटाइम लेयर के करीब आ रहा है। मॉडल पोर्टेबिलिटी, MLX एक्सेलेरेशन, तेज़ मेटाडेटा कॉल्स, लॉन्च इंटीग्रेशन, और विज़न इनपुट - ये सब मायने रखते हैं जब एक लोकल एजेंट को वास्तविक प्रोजेक्ट काम करना हो न कि बस प्रॉम्प्ट्स का जवाब देना हो।

स्रोत:

https://github.com/ollama/ollama/releases

[05:00] LM Studio MLX विज़न इन्फरेंस में सुधार करता है और शेयर्ड लोकल सर्वर्स की ओर इशारा करता है

LM Studio 0.4.13 mlx-engine v1.8.1 शिप करता है। आधिकारिक चेंजलॉग कहता है कि यह परफॉर्मेंस में महत्वपूर्ण सुधार करता है और Qwen 3.5/3.6 और Gemma 4 सहित विज़न-कैपेबल मॉडल्स के लिए पैरलल प्रेडिक्शन जोड़ता है। वही रिलीज़ पेस्टेड-न्यूलाइन हैंडलिंग फिक्स करता है और सिक्योरिटी हार्डनिंग शामिल करता है।

यह छोटा लगता है जब तक आप इसे उस जगह नहीं रखते जहां LM Studio बड़ी मशीनों के साथ जा रहा है। इसके DGX Station मैटेरियल एक हेडलेस डेमन, llmster का वर्णन करते हैं, जो LM Link के साथ जोड़ा गया है ताकि एक मशीन दूसरी डिवाइस को लोकल मॉडल सर्व कर सके। यह LM Studio SDKs, LM Studio API, और OpenAI-कम्पैटिबल और Anthropic-कम्पैटिबल APIs को भी बुलाता है।

बिल्डर प्रासंगिकता सीधी है: लोकल AI एक दो-भाग स्टैक बनती जा रही है। एक लैपटॉप या Mac इंटरफ़ेस हो सकता है, जबकि एक बड़ी लोकल मशीन मॉडल लोड संभालती है। विज़न एजेंटों के लिए, MLX समानांतर भविष्यवाणी सुधार महत्वपूर्ण हैं क्योंकि स्क्रीनशॉट, छवियां, UI स्थिति, और मल्टीमॉडल प्रोजेक्ट संदर्भ सामान्य इनपुट बनते जा रहे हैं, डेमो नहीं।

स्रोत:

[10:00] DGX Spark एक गंभीर लोकल-एजेंट लक्ष्य बनता है

NVIDIA का वर्तमान DGX Spark और RTX मैसेजिंग स्पष्ट रूप से लोकल एजेंटों के बारे में है। कंपनी इन मशीनों को एजेंट कंप्यूटर के रूप में प्रस्तुत कर रही है जो व्यक्तिगत एजेंटों को लोकल, प्राइवेट, और टोकन लागत के बिना चलाने के लिए हैं। इसकी GTC सामग्री Nemotron 3 Nano 4B, Nemotron 3 Super 120B, Qwen 3.5 ऑप्टिमाइज़ेशन, Mistral Small 4, और Ollama, LM Studio, और llama.cpp के माध्यम से चलने वाले लोकल एजेंट स्टैक को हाइलाइट करती है।

DGX Spark महत्वपूर्ण है क्योंकि इसकी मेमोरी और डिप्लॉयमेंट आकार के कारण। NVIDIA DGX Spark को 128GB यूनिफाइड मेमोरी के साथ वर्णित करता है, जो 120B पैरामीटर से ऊपर के मॉडलों के लिए काफी है। Nemotron 3 Super को 12B सक्रिय पैरामीटर वाले 120B ओपन मॉडल के रूप में वर्णित किया गया है, जबकि Nemotron 3 Nano 4B जैसे छोटे मॉडल अधिक सीमित RTX मशीनों को लक्षित करते हैं।

बात यह नहीं है कि हर बिल्डर को एक खरीदना चाहिए। बात यह है कि लोकल एजेंट सॉफ्टवेयर के पास अब एक सिंगल डेस्कटॉप से ऊपर और किराए के क्लाउड GPU इन्फ्रास्ट्रक्चर से नीचे का हार्डवेयर टियर है। अगर लोकल एजेंट प्राइवेट रखने के लिए कॉन्टेक्स्ट, पूरे दिन चलने, और टूल कॉल करने के लिए हैं बिना हर स्टेप के लिए पर-टोकन क्लाउड लागत के, तो DGX Spark जैसी मशीनें प्रासंगिक इन्फ्रास्ट्रक्चर बन जाती हैं।

स्रोत:

[15:00] EXO और DGX Spark दिखाते हैं कि वितरित लोकल इन्फरेंस वास्तविक है लेकिन अभी भी खुरदरा है

DGX Spark के साथ EXO की एक समस्या एक साफ प्रेस रिलीज़ से ज़्यादा उपयोगी है क्योंकि यह वास्तविक फेलियर मोड दिखाती है। क्लस्टर में Macs और एक DGX Spark एक ही लोकल नेटवर्क पर थे, बेसिक कनेक्टिविटी काम कर रही थी, EXO डैशबोर्ड एक्सेस काम कर रहा था, और पोर्ट पहुंच योग्य थे। लेकिन नोड्स अभी भी एक काम करने वाला वितरित इन्फरेंस क्लस्टर नहीं बना पाए।

रिपोर्ट किया गया फिक्स दो भागों वाला था। पहला, Rust exo_pyo3_bindings नेटवर्किंग मॉड्यूल, जिसमें libp2p नेटवर्किंग, mDNS डिस्कवरी, और प्राइवेट-नेटवर्क लॉजिक है, उसे Linux/aarch64 पर मैन्युअली कंपाइल करने की जरूरत थी। दूसरा, सभी नोड्स को एक ही EXO_LIBP2P_NAMESPACE की जरूरत थी ताकि libp2p प्राइवेट-नेटवर्क की कुंजी पूरे क्लस्टर में मेल खाए।

उसके बाद, EXO डैशबोर्ड में DGX Spark दिखा और वितरित अनुमान (distributed inference) में भाग लिया। यही असली कहानी है: EXO सही लोकल-क्लस्टर समस्या को हल कर रहा है, लेकिन वितरित स्थानीय अनुमान (distributed local inference) की सफलता या असफलता खोज (discovery), पैकेजिंग, नेमस्पेस अलाइनमेंट और आर्किटेक्चर-विशिष्ट बिल्ड पर निर्भर करती है। कच्चा कंप्यूट (raw compute) तब तक काफी नहीं है जब तक नोड्स एक-दूसरे को विश्वसनीय रूप से खोज और भरोसा नहीं कर सकते।

स्रोत:

https://github.com/exo-explore/exo/issues/1682

[20:00] Grok Build आ गया, लेकिन मॉडल रीडायरेक्ट और प्राइसिंग पर ध्यान देने की जरूरत है

xAI के Grok Build डॉक्स में एक पूर्ण coding-agent CLI सतह का वर्णन है: एक इंटरैक्टिव TUI, हेडलेस स्क्रिप्टिंग, plain/json/streaming-json आउटपुट, रीज्यूमेबल सेशन, ACP through Grok agent stdio, कस्टम मॉडल कॉन्फ़िगरेशन, स्किल्स, प्लगइन, हुक और MCP सर्वर डिस्कवरी।

यह Grok Build को अन्य coding-agent CLI की उसी श्रेणी में रखता है: चैट सतह नहीं, बल्कि ऑटोमेशन हुक के साथ टर्मिनल-नेटिव एजेंट। आधिकारिक डॉक्स में कस्टम मॉडल कॉन्फ़िगरेशन भी दिखाते हैं, जो इसलिए मायने रखता है क्योंकि बिल्डर्स को बढ़ते हुए coding-agent शेल चाहिए जो विभिन्न मॉडल बैकएंड पर रूट कर सकें।

लागत और माइग्रेशन की कहानी अलग है लेकिन महत्वपूर्ण है। xAI के 15 मई की रिटायरमेंट पेज के अनुसार, पदावनत (deprecated) reasoning slug Grok 4.3 पर low reasoning effort के साथ रीडायरेक्ट होते हैं, non-reasoning slug Grok 4.3 पर no reasoning effort के साथ रीडायरेक्ट होते हैं, और grok-code-fast-1 Grok 4.3 पर रीडायरेक्ट होता है। पेज पर Grok 4.3 API प्राइसिंग $1.25 प्रति मिलियन इनपुट टोकन और $2.50 प्रति मिलियन आउटपुट टोकन के हिसाब से है। व्यावहारिक सिफारिश यह है कि प्रतिस्थापन मॉडल को स्पष्ट रूप से पिन करें, पदावनत slug को चुपचाप व्यवहार और बिलिंग बदलने देने के बजाय।

स्रोत:

[25:00] LiteLLM और Envoy मॉडल गेटवे लेयर को मजबूत करते हैं

LiteLLM v1.84.0 एक गेटवे हार्डनिंग रिलीज है। रिलीज वर्शन नेमिंग को PEP 440 में बदलता है, डिफ़ॉल्ट रूप से pass-through एंडपॉइंट को ऑथेंटिकेट करता है, मल्टी-पॉड बजट एन्फोर्समेंट में सुधार करता है, Prisma रीकनेक्ट फ्रीज से बचता है, lazy-loaded फीचर राउटर के माध्यम से मेमोरी फुटप्रिंट कम करता है, MCP OAuth और Azure Entra डिस्कवरी सपोर्ट जोड़ता है, और workflow-runs API सतह के माध्यम से ड्यूरेबल वर्कफ़्लो रन ट्रैकिंग जोड़ता है।

Envoy AI Gateway v0.6.0 Kubernetes गेटवे साइड से उसी दिशा में आगे बढ़ रहा है। यह कोर CRD को v1beta1 में अपग्रेड करता है, OpenAI-संगत बैकएंड पर Anthropic एंडपॉइंट सपोर्ट जोड़ता है, Gemini एम्बेडिंग और कॉन्टेक्स्ट कैशिंग जोड़ता है, MCP per-backend हेडर फॉरवर्डिंग सपोर्ट करता है, रिक्वेस्ट/रिस्पॉन्स बॉडी रीडैक्शन जोड़ता है, और Envoy/Gateway बेसलाइन को अपडेट करता है।

यह कारण है कि यह एक local-agent एपिसोड में क्यों है - क्योंकि local-first का मतलब gateway-free नहीं है। Agents को अभी भी routing, auth, budgets, redaction, provider compatibility, और MCP authorization की जरूरत है। जितने ज्यादा model backends और local runtimes आप जोड़ते हैं, control plane उतना ही ज्यादा महत्वपूर्ण हो जाता है।

Sources: