
Hardware Deep Dive — Beheben von lokalen Modellfehlern
Episode 0 behandelt den Context-Overflow-Bug mit Clarity (Qwen3-Coder 30B), einen vollständigen Hardware-Vergleich (NVIDIA DGX Spark, Mac Studio M3 Ultra, AMD Ryzen AI Max+ 395, AMD MI300X) und den Konfigurationsfix. Show notes: https://tobyonfitnesstech.com/de/podcasts/episode-0/
🎧 Listen to EpisodeEpisode 0: Hardware Deep Dive – Beheben von lokalen Modellfehlern
Datum: 18. Februar 2026 Dauer: 11:45 Moderatoren: Nova & Alloy
SHOW NOTES
behandelte Themen
Der Context-Overflow-Bug — Clarity (Coding-Agent, Qwen3-Coder-30B) hat wiederholt Context-Overflow-Fehler mitten in Aufgaben erhalten. Ursache: Eine Ollama-Modelldefinition mit dem Namen
v-128k, die den Context auf 131.072 Token begrenzte, während das Modell nativ 262.144 Token unterstützt. Ein Config-Label vom Setup-Tag wurde versehentlich zur harten Grenze.Die Timeout-Mathematik — Am 18. Februar um 11:15 Uhr wurden 146.760 Token gegen ein Limit von 131.072 Token abgefragt. Bei einer Prefill-Geschwindigkeit von ~400 Token/sec dauert die Verarbeitung von 146K Token über 6 Minuten. Der Timeout-Schwellenwert lag bei 5 Minuten. Drei aufeinanderfolgende Treffer – keine Abstürze, keine Instabilität – perfekt durch die Arithmetik erklärt.
Qwen3-Coder-Speicherarchitektur — Qwen3-Coder 30B ist ein Mixture-of-Experts-Modell mit nur 4 KV-Attention-Heads (vs. 8 bei LLaMA-3 8B). Bei 262K Context: ~15 GB Modellgewichte + ~24 GB KV-Cache + OS-Overhead ≈ 44 GB gesamt. Eine Maschine mit 64 GB Unified Memory hat 20 GB Spielraum. Die Hardware war die ganze Zeit in Ordnung.
Hardware-Option 1: NVIDIA DGX Spark (3.000 $) — GB10 Grace Blackwell Chip, 128 GB LPDDR5X, 273 GB/s Speicherbandbreite. Kontraintuitiv geringere Bandbreite als ein Mac Studio M2 Ultra (~800 GB/s). Kompensiert über FP4-Tensor-Cores (25–50 Tok/s bei 70B vs. aktuell 10–15). Linux-nur Sidecar; zwei Einheiten für 6K verlinken um 405B+ Modelle zu betreiben.
Hardware-Option 2: Mac Studio M3 Ultra — 4.000 $ (192 GB) bis 8–10K (512 GB). 819 GB/s Bandbreite, 2,1× schneller als M2 Ultra laut Apple-Benchmarks. 20–32 Tok/s bei 70B-Modellen. 192-GB-Konfiguration ermöglicht gleichzeitiges Laden von 30B + 70B-Modellen ohne Swapping. 512-GB-Konfiguration ist der einzige Consumer-Weg, um LLaMA 3.1 405B lokal zu betreiben.
Hardware-Option 3: AMD — Zwei Geschichten:
- Threadripper + duale RX 7900 XTX (5–6K): Split-VRAM-Problem, ROCm hinkt CUDA hinterher. Keine Empfehlung.
- Ryzen AI Max+ 395 "Strix Halo" (2.000–2.500 $): AMDs Antwort auf Apple Silicon — CPU/GPU/NPU Unified Memory bis zu 128 GB LPDDR5X. Framework Desktop AMD oder ASUS ROG Flow Z13. Speicherbandbreite ist 256 GB/s (256-Bit-Bus), ~3× weniger als M2 Ultra – trotz doppelt so viel adressierbarem RAM wettbewerbsfähige Geschwindigkeiten. Bester Budget-Weg zu 128 GB Unified Memory, Punkt.
- AMD MI300X (25K, Enterprise): 192 GB HBM3, 5,3 TB/s Bandbreite, 80–120 Tok/s bei 70B. Der Vollständigkeit halber erwähnt; kein Consumer-Kauf.
Workflow-Strategie: Hybrid Local + Cloud — Schwere Multi-File-Änderungen (5+ Templates, große Codebase-Refactors) machen ~20% der Gesamtlast aus. Für nicht-private Code: Devstral bietet 262K nativen Context auf dem kostenlosen Mistral API Tier; Gemini 2.5 Pro bietet 1 Million Token. Die richtige Frage ist nicht "wie bringe ich meine härtesten Jobs lokal zum Laufen?" – sondern "sollten meine härtesten Jobs überhaupt lokal sein?"
Die Lösung — Config-Patch + neue Ollama-Modelldefinition um den vollen 262K-Context-Freiraum freizuschalten. Live während der Recherche gemacht. Null Kosten.
Hardware-Ressourcen
- Apple Mac Mini - Empfohlen für lokale KI
- Raspberry Pi 5 - Budget-Option
- Ollama - Lokaler LLM-Runtime
Wichtige Erkenntnisse
- Ein Modell-Label ist keine Leistungsgrenze. Der Ollama-Modellname
qwen3-coder:30b-262ksagte die Wahrheit; das Erstellungszeit-Label nicht. Überprüfe immer die Context-Fenster-Config gegen die tatsächliche Modell-Spec. - Token-Generierung ist speicherbandbreitengebunden, nicht computegebunden. Der DGX Spark hat weniger Speicherbandbreite als ein Mac Studio. Bandbreite ist der Flaschenhalh – überprüfe immer GB/s, nicht nur GB.
- Strix Halo (Ryzen AI Max+ 395) ist der günstigste Weg zu 128 GB Unified Memory. Nichts anderes kommt unter 3K heran. Der Kompromiss ist ~3× weniger Bandwidth als Apple Silicon.
- Diagnostiziere bevor du kaufst. Drei Schichten Fehlkonfiguration (falsches Context-Cap + Timeout zu kurz + Modell-Cap überschritten) sahen aus wie Hardwarefehler. Sie waren vollständig durch Config behebbar.
- Der Hybrid Local/Cloud-Split ist der eigentliche Effizienzhebel. Lagere die 20% der schweren Context- nicht-privaten Aufgaben an Devstral oder Gemini 2.5 Pro aus. Betreibe die anderen 80% lokal, wo Datenschutz wichtig ist.
Ressourcen & Links
| Artikel | Details |
|---|---|
| Qwen3-Coder 30B | Ollama: ollama pull qwen3-coder:30b-262k |
| NVIDIA DGX Spark | 3.000 $ — nvidia.com/en-us/project-digits |
| Mac Studio M3 Ultra | 3.999 $ (192 GB) / 7.999 $+ (512 GB) — apple.com |
| AMD Ryzen AI Max+ 395 | Framework Desktop AMD Edition ~2.000–2.500 $ |
| ASUS ROG Flow Z13 | 2.499 $ — Ryzen AI Max+ 395, bis zu 128 GB |
| AMD MI300X | 25.000 $+ Enterprise — nur zur Referenz |
| Devstral | 262K Context, kostenloser Tier — mistral.ai |
| Gemini 2.5 Pro | 1M Context — aistudio.google.com |
| llama.cpp | CPU-Inference-Backend — github.com/ggerganov/llama.cpp |
| Ollama | Lokaler Model-Runtime — ollama.com |