
Análisis Profundo de Hardware — Solucionando Fallos de Modelos Locales
El Episodio 0 cubre el bug de desbordamiento de contexto con Clarity (Qwen3-Coder 30B), una comparación completa de hardware (NVIDIA DGX Spark, Mac Studio M3 Ultra, AMD Ryzen AI Max+ 395, AMD MI300X) y la corrección de configuración que resolvió el problema. Show notes: https://tobyonfitnesstech.com/es/podcasts/episode-0/
🎧 Listen to EpisodeEpisodio 0: Análisis Profundo de Hardware - Solucionando Fallos de Modelos Locales
Fecha: 18 de febrero de 2026 Duración: 11:45 Presentadores: Nova & Alloy
NOTAS DEL EPISODIO
Temas Cubiertos
El Error de Desbordamiento de Contexto — Clarity (agente de codificación, Qwen3-Coder-30B) golpeó repetidamente errores de desbordamiento de contexto a mitad de tarea. Causa raíz: una definición de modelo Ollama etiquetada como
v-128kque limitaba el contexto a 131,072 tokens, mientras que el modelo soporta nativamente 262,144 tokens. Una etiqueta de configuración del día de instalación se convirtió en un límite duro por accidente.La Matemática del Timeout — El 18 de febrero a las 11:15 AM, se promovieron 146,760 tokens contra un límite de 131,072. La velocidad de pre-relleno es de ~400 tokens/seg, lo que significa que procesar 146K tokens toma más de 6 minutos. El umbral de timeout era de 5 minutos. Tres golpes consecutivos — no crashes, no inestabilidad — perfectamente explicados por la aritmética.
Arquitectura de Memoria de Qwen3-Coder — Qwen3-Coder 30B es un modelo de Mezcla de Expertos con solo 4 cabezas de atención KV (vs. 8 para LLaMA-3 8B). A 262K de contexto: ~15 GB de pesos del modelo + ~24 GB de caché KV + overhead del SO ≈ 44 GB en total. Una máquina de memoria unificada de 64 GB tiene 20 GB de margen. El hardware estaba bien todo el tiempo.
Opción de Hardware 1: NVIDIA DGX Spark ($3,000) — Chip GB10 Grace Blackwell, 128 GB LPDDR5X, 273 GB/s de ancho de banda de memoria. Contrariamente a la intuición, menor ancho de banda que un Mac Studio M2 Ultra (~800 GB/s). Compensa mediante núcleos tensor FP4 (25–50 tok/s en 70B vs. 10–15 actualmente). Solo Linux como accesorio; vincula dos unidades por $6K para ejecutar modelos de 405B+.
Opción 2: Mac Studio M3 Ultra — $4,000 (192 GB) a $8–10K (512 GB). 819 GB/s de ancho de banda, 2.1× más rápido que M2 Ultra según benchmarks de Apple. 20–32 tok/s en modelos de 70B. La configuración de 192 GB permite cargar simultáneamente modelos de 30B + 70B sin intercambio. La configuración de 512 GB es el único camino de consumidor para ejecutar LLaMA 3.1 405B localmente.
Opción 3: AMD — Dos historias:
- Threadripper + dual RX 7900 XTX ($5–6K): Problema de VRAM dividido, ROCm está rezagado respecto a CUDA. Pasaje difícil.
- Ryzen AI Max+ 395 "Strix Halo" ($2,000–2,500): La respuesta de AMD a Apple Silicon — CPU/GPU/NPO memoria unificada hasta 128 GB LPDDR5X. Framework Desktop AMD o ASUS ROG Flow Z13. El ancho de banda de memoria es de 256 GB/s (bus de 256-bit), ~3× menos que M2 Ultra — velocidades competitivas a pesar del doble de RAM direccionable. Mejor camino presupuestario a memoria unificada de 128 GB, punto.
- AMD MI300X ($25K, empresa): 192 GB HBM3, 5.3 TB/s de ancho de banda, 80–120 tok/s en 70B. Mencionado por completitud; no es una compra de consumidor.
Estrategia de Flujo de Trabajo: Híbrido Local + Nube — Las ediciones de múltiples archivos pesados (5+ plantillas, refactorizaciones grandes de codebase) representan ~20% de la carga total de trabajo. Para código no privado: Devstral ofrece 262K contexto nativo en el tier gratuito de Mistral API; Gemini 2.5 Pro ofrece 1 millón de tokens. La pregunta correcta no es "¿cómo ejecuto mis trabajos más difíciles localmente?" — es "¿deberían mis trabajos más difíciles ser locales en absoluto?"
La Solución — Parche de configuración + nueva definición de modelo Ollama para desbloquear la ventana completa de 262K. Hecho en vivo durante la investigación. Cero costo.
Recursos de Hardware
- Apple Mac Mini - Recomendado para IA local
- Raspberry Pi 5 - Opción presupuestaria
- Ollama - Runtime de LLM local
Conclusiones Clave
- Una etiqueta de modelo no es un techo de capacidad. El nombre del modelo Ollama
qwen3-coder:30b-262kdecía la verdad; la etiqueta del momento de creación no. Siempre verifica la configuración de ventana de contexto contra la especificación real del modelo. - La generación de tokens está limitada por el ancho de banda de memoria, no por la computación. El DGX Spark tiene menos ancho de banda de memoria que un Mac Studio. El ancho de banda es el cuello de botella — siempre verifica GB/s, no solo GB.
- Strix Halo (Ryzen AI Max+ 395) es el camino más barato a 128 GB de memoria unificada. Nada más se acerca por menos de $3K. La compensación es ~3× menos ancho de banda que Apple Silicon.
- Diagnostica antes de comprar. Tres capas de mala configuración (límite de contexto incorrecto + timeout demasiado corto + límite de modelo excedido) parecían fallo de hardware. Eran enteramente solucionables con configuración.
- La división híbrida local/nube es la palanca real de eficiencia. Descarga el 20% de tareas pesadas de contexto, no privadas a Devstral o Gemini 2.5 Pro. Ejecuta el otro 80% localmente donde la privacidad importa.
Recursos y Enlaces
| Elemento | Detalle |
|---|---|
| Qwen3-Coder 30B | Ollama: ollama pull qwen3-coder:30b-262k |
| NVIDIA DGX Spark | $3,000 — nvidia.com/en-us/project-digits |
| Mac Studio M3 Ultra | $3,999 (192 GB) / $7,999+ (512 GB) — apple.com |
| AMD Ryzen AI Max+ 395 | Framework Desktop AMD Edition ~$2,000–2,500 |
| ASUS ROG Flow Z13 | $2,499 — Ryzen AI Max+ 395, hasta 128 GB |
| AMD MI300X | $25,000+ empresa — solo como referencia |
| Devstral | 262K contexto, tier gratuito — mistral.ai |
| Gemini 2.5 Pro | 1M contexto — aistudio.google.com |
| llama.cpp | Backend de inferencia CPU — github.com/ggerganov/llama.cpp |
| Ollama | Runtime de modelo local — ollama.com |