OpenClaw v2026.4.27, Agentes de Voz y Almacenamiento Rápido de IA — Episode 43 cover art
Episode 43·30 de abril de 2026·45:07

OpenClaw v2026.4.27, Agentes de Voz y Almacenamiento Rápido de IA

EP043 comienza con OpenClaw v2026.4.27. Esta versión añade flujos de estado e instalación de Codex Computer Use con comprobaciones MCP fail-closed, incluye DeepInfra como proveedor para descubrimiento de modelos y generación de medios, amplía la cobertura de los canales Tencent Yuanbao y QQBot, añade paso GPU de Docker para agentes en sandbox, introduce enrutamiento de proxy saliente gestionado por el operador, organiza archivos adjuntos de chat no gráficos para uso del agente, mueve el arranque y los catálogos de modelos hacia metadatos basados en manifiestos y corrige muchos problemas reales de entrega, entre otras mejoras. Show notes: https://tobyonfitnesstech.com/es/podcasts/episode-43/

🎧 Listen to Episode

OPENCLAW DAILY — EPISODE 043 — 30 de abril de 2026

[00:00] INTRO / GANCHO OpenClaw v2026.4.27 es la versión estable más reciente en la lista de releases de GitHub, y las notas del episodio reciente ya cubrieron v2026.4.26, v2026.4.25 y v2026.4.24. Bajo la regla de selección de releases, esto significa que el bloque de release válido para EP043 es exactamente v2026.4.27.

Esta es una versión densa para operadores. Codex Computer Use obtiene una ruta de configuración real. DeepInfra se convierte en un proveedor incluido. Los sandbox de Docker obtienen paso de GPU opcional. Los archivos adjuntos de chat del agente se manejan de manera más explícita. El enrutamiento de proxy saliente se convierte en una configuración administrada por el operador. Tencent Yuanbao y QQBot expanden la superficie del canal. El inicio de plugins y los catálogos de modelos siguen avanzando hacia metadatos propiedad del manifiesto. Y la lista de correcciones es un recorrido muy largo por los lugares donde los sistemas de agentes reales generalmente fallan: Telegram, Slack, Discord, trabajos de medios, entrega cron, valores predeterminados de sesión, dependencias de runtime de plugins, reproducción de proveedores, inicio de gateway, actualizaciones, transferencias de Windows y medios de canales.

[02:00] HISTORIA 1 — OpenClaw v2026.4.27 Hace que Computer Use y las Superficies de Proveedores Sean Más Operables Comenzar con Codex Computer Use, porque es uno de los cambios más claros orientados al operador en el release.

OpenClaw ahora incluye la configuración de Codex Computer Use con comandos de estado e instalación, descubrimiento en marketplace, auto-instalación opcional y verificaciones MCP fail-closed antes de que inicien los turnos en modo Codex. La frase importante es fail-closed. Una función de uso de computadora no debería permitir que un agente comience un turno de control de escritorio mientras el servidor MCP requerido esté ausente, mal configurado o invisible para el runtime. Así es como los usuarios terminan depurando capacidad fantasma: el modelo cree que puede actuar, el shell del producto dice que puede actuar, pero el controlador o puente subyacente realmente no está listo.

Por lo tanto, el release convierte la configuración en un preflight de primera clase. /codex computer-use status es la superficie de inspección. /codex computer-use install es la ruta de reparación. El descubrimiento en marketplace le da al runtime una forma de encontrar la integración correcta. Las verificaciones MCP fail-closed hacen que el límite sea explícito: si el servidor de control de escritorio no está disponible, no iniciar el turno como si lo estuviera. Eso es aburrido de la mejor manera posible, porque el uso confiable de computadora depende de conocer la diferencia entre una capacidad que existe en el producto y una capacidad que realmente está conectada en el entorno actual.

Hay un cambio de documentación relacionado alrededor de Codex Computer Use, cua-driver mcp directo y PeekabooBridge de OpenClaw.app. Eso importa porque el control de escritorio ahora tiene múltiples rutas de configuración posibles. Un puente de aplicación local, un controlador MCP directo y una configuración en modo Codex suenan similares desde afuera, pero operativamente pueden diferir en vida del proceso, permisos, disponibilidad de capturas de pantalla, inyección de entrada, foco del navegador y recuperación de fallas. EP043 debería explicar que el producto está tratando de hacer esas opciones legibles en lugar de dejarlas como conocimiento tribal.

La segunda área grande del release es la expansión de proveedores. DeepInfra se une al conjunto de proveedores incluidos con incorporación de DEEPINFRA_API_KEY, descubrimiento dinámico de modelos compatibles con OpenAI, generación y edición de imágenes, comprensión de imágenes y audio, TTS, texto a video, embeddings de memoria, metadatos de catálogo estáticos y política de URL base propiedad del proveedor. Eso no es solo un nuevo logo en un menú desplegable de modelos. Expande los tipos de cargas de trabajo que OpenClaw puede enrutar a través de un proveedor: texto, generación de medios, comprensión de medios, voz, video y embeddings.

El detalle del operador es el descubrimiento de modelos y la política propiedad del proveedor. Cuando un proveedor es compatible con OpenAI, es tentador tratarlo como solo otra URL base. Pero el soporte real del proveedor necesita incorporación, metadatos de catálogo, flags de capacidad, soporte de medios, hints de autenticación, comportamiento de embeddings, semántica de fallback y propiedad de URL base. De lo contrario, cada endpoint compatible se convierte en un copo de nieve personalizado con nombres de modelos sorprendentes y capacidades apenas conocidas. Que DeepInfra esté incluido significa que el runtime puede exponerlo como una superficie de proveedor administrada en lugar de obligar a los usuarios a construir manualmente cada borde.

[11:30] HISTORIA 1B — Los Sandbox, Proxies, Archivos Adjuntos y Presencia de Dispositivos Se Vuelven Más Precisos El cambio de sandbox de Docker es pequeño pero muy importante para flujos de trabajo de IA locales: OpenClaw agrega paso opcional de sandbox.docker.gpus para contenedores de sandbox de Docker cuando el runtime del host soporta --gpus.

Esa es la forma predeterminada correcta. El acceso a GPU dentro de un sandbox es poderoso y útil, pero debería ser explícito. El servicio de modelos locales, generación de imágenes, procesamiento de video, visión por computadora y trabajos de evaluación a menudo necesitan aceleración de hardware. Pero exponer GPUs a trabajo de agente sandbox arbitrario también ensancha la superficie de recursos y controladores. Hacerlo opcional le da a los operadores un control: este sandbox puede usar la GPU; este otro sandbox se mantiene solo CPU. Eso se vuelve especialmente relevante cuando un agente puede instalar dependencias, ejecutar herramientas de modelos o ejecutar trabajos largos que podrían monopolizar la VRAM.

El release también agrega enrutamiento de proxy saliente administrado por el operador con proxy.enabled, proxy.proxyUrl y OPENCLAW_PROXY_URL. Las notas señalan validación estricta de forward-proxy http://, un bypass de Gateway solo loopback y limpieza del entorno de proxy y estado del dispatcher al salir. Esa es una buena forma de seguridad. Reconoce que algunas instalaciones necesitan una ruta saliente controlada para cumplimiento, inspección, red corporativa o restricciones de salida, pero no enruta silenciosamente el tráfico interno de Gateway a través de la misma ruta ni deja estado de proxy obsoleto después del apagado.

El comportamiento de archivos adjuntos de chat de Gateway también mejora. Los archivos adjuntos que no son imágenes enviados a través de chat.send ahora pueden prepararse como rutas de medios legibles por el agente, mientras que las rutas de archivos adjuntos RPC no soportadas son explícitas en lugar de descartar archivos silenciosamente. Esto importa para la UX del agente porque un archivo adjunto que desaparece es peor que uno que falla claramente. Los operadores necesitan saber si un archivo es legible por el agente, si se convirtió en medio, si el proveedor del canal lo aceptó y si una ruta no soportada fue rechazada.

En móviles y nodos emparejados, iOS y Android ahora publican eventos autenticados de node.presence.alive y exponen campos de última vez visto para que los despertares en segundo plano puedan marcar nodos emparejados recientemente vivos sin tratarlos como conectados. Esa distinción importa en sistemas de asistente distribuidos. Un nodo puede estar vivo recientemente sin estar conectado en este momento. Si el runtime colapsa esos estados en un solo booleano, ya sea sobre-promete disponibilidad o pierde información útil de liveness. Los metadatos de última vez visto permiten que la programación, el diagnóstico y la UX describan el estado más honestamente.

[18:30] HISTORIA 1C — Inicio Primero-Manifiesto y Catálogos de Modelos Reducen la Incertidumbre del Runtime Mucho de v2026.4.27 se trata de mover el catálogo y los metadatos de plugins fuera de las importaciones pesadas del runtime y hacia los manifiestos.

Los manifiestos de plugins incluidos ahora declaran comportamiento explícito de activation.onStartup. También hay una compuerta de modo futuro para deshabilitar la carga deprecated de sidecar de inicio implícito, más advertencias de compatibilidad para mover a los autores de plugins hacia metadatos explícitos. El punto práctico es simple: el inicio de Gateway no debería importar cada sidecar de plugin posible solo para descubrir si tiene trabajo de inicio por hacer. El inicio es donde los árboles de dependencias lentos, las verificaciones de red, el estado obsoleto de plugins y los efectos secundarios accidentales más duelen.

El release también conecta los modelCatalog.aliases y modelCatalog.suppressions del manifiesto en la planificación del catálogo de modelos. Los catálogos de proveedores para Qianfan, Xiaomi, NVIDIA, Cerebras, Mistral, Moonshot, DeepSeek, Tencent TokenHub, StepFun, BytePlus, Volcano Engine, Fireworks y Together AI se mueven hacia filas de manifiesto de plugin. Este es el mismo movimiento arquitectónico desde otro ángulo: hacer que las filas de proveedor, aliases, supresiones y metadatos de endpoint sean inspeccionables sin forzar la normalización del runtime a través de un universo amplio de plugins.

Para los constructores, la lección es que los catálogos de modelos son infraestructura, no solo UI. Si el producto tiene que responder "qué modelos existen", "qué proveedor posee este modelo", "qué aliases son válidos" y "qué filas obsoletas deberían ocultarse", esa información debería estar cerca del contrato del proveedor. De lo contrario, cada comando de lista, flujo de configuración, arranque de gateway y ruta de descubrimiento de proveedores corre el riesgo de hacer demasiado trabajo y devolver respuestas ligeramente diferentes.

También hay una historia fuerte de SDK y pruebas aquí. El release expone subrutas enfocadas de SDK de plugins para rutas de canales, helpers de prueba de canales, prueba de objetivo de canales, fixtures de runtime de plugins, helpers de catálogo de proveedores, aserciones de capacidad de proveedores de medios y muchos helpers de contrato que solían vivir en puentes de prueba solo de repositorio. Eso no es directamente visible para el usuario, pero es higiene importante del producto. Los autores de extensiones y plugins incluidos deberían probar contra superficies de SDK documentadas, no directorios de prueba privados que pueden moverse debajo de ellos.

[25:00] HISTORIA 1D — Las Correcciones de Confiabilidad Muestran Dónde Realmente Duelen los Runtimes de Agentes La lista de correcciones de v2026.4.27 es larga, y el programa no debería leer cada elemento. En cambio, agrupar las correcciones por dolor del operador.

Primera: entrega por canal. Telegram obtiene un mejor enrutamiento de aprobación nativa multi-bot, llamadas limitadas al Bot API saliente, búsqueda de alias de plugins agrupados en caché, y preservación de temas cron con --thread-id. Slack obtiene controles de timeout de ping/pong en modo socket y descargas limitadas de archivos privados y adjuntos reenviados. Mattermost deja de duplicar publicaciones entrantes regulares como eventos del sistema. LINE persiste medios entrantes bajo almacenamiento de medios gestionado en lugar de archivos temporales que pueden desaparecer. Este tipo de correcciones son las que importan cuando OpenClaw no es solo una CLI local, sino un asistente multicanal que tiene que sobrevivir a proveedores lentos, temas de foros, descargas de archivos, retención de medios y semánticas específicas de cada canal.

Segunda: medios y tareas asíncronas. Los contextos de herramientas video_generate y music_generate separados permanecen registrados hasta el estado terminal, los trabajos de proveedores de larga duración se mantienen frescos, y los registros de tareas con ámbito de sesión infieren la propiedad. Eso corrige una clase desagradable de fallo de producto donde un trabajo de generación sigue vivo en el proveedor, pero el contexto de chat padre o la tabla de tareas cree que se perdió. Para la generación de medios respaldada por Discord especialmente, la experiencia del usuario depende del seguimiento en tiempo de ejecución de un trabajo externo largo a través de turnos.

Tercera: sesiones, modelos y reproducción. Los valores predeterminados de pensamiento de chat.history y sessions.list ahora se alinean con la resolución consciente del catálogo y del agente propietario. El contenido de razonamiento de DeepSeek V4 se completa en rutas de reproducción. Los encabezados beta de Anthropic se limitan a puntos finales públicos directos de Anthropic en lugar de proveedores compatibles personalizados. Las respuestas de herramientas con mucha configuración dejan de reproducir configuraciones redactadas gigantes en las transcripciones. Todo eso apunta al mismo tema: una vez que los agentes usan múltiples proveedores, llamadas de herramientas, transcripciones, reproducción y valores predeterminados por agente, el tiempo de ejecución debe preservar suficiente estado para continuar correctamente sin enviar accidentalmente los metadatos incorrectos al backend incorrecto.

Cuarta: inicio, actualizaciones y dependencias de tiempo de ejecución de plugins. El inicio de la puerta de enlace ya no espera el precalentamiento del modelo principal antes de iniciar los canales de chat. Los plugins desactivados y rastreados se omiten durante la sincronización posterior a la actualización. Las dependencias de tiempo de ejecución agrupadas y los espejos se vuelven más ligeros, más conscientes del caché y más seguros durante los reinicios. La inspección de plugins carga solo el plugin coincidente. Los planes de desinstalación de plugins se basan en metadatos en lugar de cargar todo en tiempo de ejecución. Esto es exactamente lo que los operadores sienten como "OpenClaw inicia más rápido" o "las actualizaciones no traban mi instancia", aunque las correcciones subyacentes son principalmente disciplina de dependencias y metadatos.

El veredicto del lanzamiento: v2026.4.27 no es un episodio de una sola característica. Es un lanzamiento de operaciones de tiempo de ejecución. Hace que el uso de computadora sea más seguro para iniciar, que los proveedores sean más fáciles de incorporar, que los sandbox sean más capaces, que los canales sean más explícitos, que el inicio de plugins sea menos pesado y que los trabajos de larga duración sean más difíciles de perder.

[31:00] HISTORIA 2 — Deepgram Flux Multilingual convierte la STT de agentes de voz en un problema de tiempo de ejecución de alternancia de turnos

La historia de Flux Multilingual de Deepgram es una buena historia de agente de voz porque no es solo "más idiomas". Cambia cómo los constructores deben pensar sobre la capa de reconocimiento de voz dentro de agentes en tiempo real.

El modelo es flux-general-multi, y Deepgram dice que soporta inglés, español, francés, alemán, hindi, ruso, portugués, japonés, italiano y holandés con cambio de código. La promesa arquitectónica clave es una conexión de streaming en lugar de enrutar cada expresión a través de reconocedores separados específicos por idioma. Eso importa porque una conversación multilingüe puede cambiar de idioma a mitad de llamada, mezclar idiomas dentro de un turno, o comenzar en un idioma que el sistema no predijo.

Los detalles de la API son los que la hacen operativamente interesante. Flux usa la ruta WebSocket /v2/listen. La sugerencia de idioma usa language_hint para sesgar el reconocimiento. Los idiomas detectados aparecen en eventos TurnInfo a través de campos como languages. El comportamiento de fin de turno es configurable con umbrales como eot_threshold, eager_eot_threshold y eot_timeout_ms. Estos no son indicadores cosméticos. Controlan el bucle del agente de voz: cuándo dejar de escuchar, cuándo empezar a generar, cuándo arriesgarse a una respuesta temprana y cuándo esperar porque el usuario puede seguir hablando.

Para un agente de voz, la latencia de STT y la detección de turnos son comportamiento del producto. Si el fin de turno se activa demasiado temprano, el agente interrumpe. Si se activa demasiado tarde, el agente se siente lento. Si el cambio de código es manejado por una capa de enrutamiento fuera del modelo, el sistema puede pasar tiempo adicional adivinando idiomas y reconectando flujos. Si las sugerencias de idioma son demasiado estrechas, el reconocimiento puede degradarse cuando el hablante cambia. La recomendación práctica es tratar STT como parte del bucle de tiempo de ejecución, no como un servicio de transcripción de caja negra.

La documentación autohospedada agrega otro ángulo importante: Flux quiere infraestructura dedicada. Deepgram dice que Flux debe ejecutarse en una instancia separada de Engine desde otras modelos STT y TTS, debe estar explícitamente habilitado en archivos TOML de Engine y API, usa /v2/listen, y asigna memoria GPU para flujos Flux al inicio. Seleccionas flux-general-multi en la sección [flux], configuras max_streams, y monitoreas flux_max_streams, flux_used_streams y flux_fraction_streams.

Eso es exactamente el tipo de detalle operativo que los constructores de agentes de voz necesitan. Si max_streams es demasiado alto, los síntomas no son abstractos: respuestas retrasadas, llamadas perdidas, errores de API y latencia inestable. Si el modelo se está ejecutando accidentalmente en CPU, los documentos señalan alta latencia, fallos estilo OOM y la necesidad de verificaciones de salud de GPU. Si Flux se coloca en el mismo nodo de Engine que otros modelos, la presión de memoria puede romper solicitudes no relacionadas. El takeaway para el constructor: los agentes de voz multilingües necesitan planificación de capacidad en la capa de streaming, no solo un LLM más grande detrás de la transcripción.

[39:00] HISTORIA 3 — Google Rapid Bucket trae Colossus a la ruta de datos de PyTorch

La publicación de Rapid Bucket de Google es una historia fuerte de infraestructura de IA porque se trata de la parte del entrenamiento que es fácil ignorar hasta que las GPU son caras e inactivas: alimentar datos y escribir puntos de control.

El mecanismo central es Rapid Storage, impulsado por la arquitectura de almacenamiento Colossus de Google, expuesto a PyTorch a través de gcsfs y la interfaz de fsspec. fsspec importa porque ya es una abstracción de sistema de archivos Python común usada alrededor de preparación de datos, puntos de control y herramientas de inferencia: Dask, Pandas, Hugging Face Datasets, Ray Data, PyTorch Lightning, rutas de PyTorch distribuido, Weights & Biases, y flujos de trabajo adyacentes a vLLM. Si el backend de almacenamiento puede volverse más rápido detrás de fsspec, mucho código de IA puede beneficiarse sin adaptadores de almacenamiento personalizados.

Rapid Bucket cambia la ruta de datos usando buckets zonales dedicados, conectividad directa a archivos Colossus subyacentes, y flujos gRPC bidireccionales persistentes a través de APIs como BidiReadObject y BidiWriteObject. Eso reemplaza la sobrecarga repetida del acceso de objetos estilo REST más tradicional con streaming con estado. La publicación también destaca la auto-detección de tipo de bucket en gcsfs, para que el código existente estilo fsspec.open() pueda usar la ruta más rápida cuando el bucket es Rapid.

Los números son útiles: Google cita más de 15 TiB/s de rendimiento agregado, una mejora del 23% en tiempo de entrenamiento en un benchmark usando 16 nodos GKE con ocho GPU A4 cada uno, mejora de 4.8x en rendimiento de lectura, y mejora de 2.8x en rendimiento de escritura en microbenchmarks con tamaños de E/S de 16MB a través de 48 procesos. El resultado exacto para cualquier carga de trabajo variará, pero el mecanismo es suficientemente claro para discutir: menos saltos de red, flujos persistentes, menor sobrecarga por operación, co-localización zonal y soporte de append en puntos de control.

El compromiso es la localidad. La co-localización zonal es por qué funciona la ruta rápida, pero también cambia el modelo de fallo y arquitectura. Si tu trabajo de entrenamiento se ejecuta en una zona y los datos están en un bucket Rapid en esa zona, el perfil de latencia mejora. Pero aún necesitas pensar sobre durabilidad regional, replicación de conjuntos de datos, respaldo de puntos de control y qué sucede si la zona se vuelve no disponible. Para sistemas de entrenamiento en producción, eso significa separar la ruta de entrenamiento caliente de la ruta de archivo duradera. Usa el bucket zonal rápido para mantener los aceleradores ocupados; copia puntos de control importantes y productos de datos a una capa de durabilidad regional o multi-regional cuando el flujo de trabajo lo requiera.

El takeaway relevante para OpenClaw es que la infraestructura de agentes y modelos depende cada vez más de rutas de datos aburridas. Un modelo no es solo una GPU y un punto de control. Es almacenamiento de objetos, abstracciones de archivos, protocolos de streaming, localidad del programador, frecuencia de puntos de control y estrategia de recuperación. Si la ruta de datos se atasca, la flota de aceleradores más inteligente se convierte en una sala de espera muy cara.

[45:00] CIERRE

El takeaway práctico del EP043 es el control operativo. OpenClaw v2026.4.27 hace que el uso de computadora, proveedores, canales, inicio y confiabilidad sean más fáciles de operar. Deepgram muestra que los agentes de voz necesitan controles de streaming y alternancia de turnos, no solo transcripciones. Google muestra que el rendimiento del entrenamiento de IA puede depender de protocolos de almacenamiento, abstracciones de sistemas de archivos, protocolos de streaming, comportamiento de puntos de control y localidad zonal.

🎙 Never miss an episode — subscribe now

🎙 Subscribe to AgentStack Daily