Episode 49: Sesión técnica sobre agentes de investigación

[00:00] Gemini Deep Research se convierte en un agente de fondo con forma de API

El Agente de Investigación Profunda de Gemini de Google ahora se expone a través de la API de Interacciones de Gemini como un agente de vista previa en lugar de una llamada de modelo de una sola vez. El detalle operativo importa: los desarrolladores inician una tarea con un agente como deep-research-preview-04-2026, configuran la ejecución en segundo plano, opcionalmente transmiten actualizaciones en flujo, y treat the result as a multi-step job that can plan, search, read, synthesize, and return intermediate artifacts. El stack supports Google Search by default, remote MCP servers with headers for authentication, multimodal inputs such as images and PDFs, generated-image outputs in response steps, and model routing through Gemini 3.1 Pro Preview. Para los constructores, el patrón de diseño es más parecido a un flujo de trabajo duradero que a una finalización de chat: guardar el ID de interacción, consumir eventos de flujo, reanudar con el último ID de evento después de una conexión perdida, y esperar latencia a escala de minutos y varianza de costo impulsada por herramientas. La recomendación es envolver esto detrás de una cola de trabajos, una ruta de cancelación, controles de presupuesto, UI de auditoría de fuentes, y manejo explícito para documentos no confiables porque el agente puede leer texto oculto en archivos mientras fundamenta la investigación.

[09:00] OpenAI Agents Python 0.17.1 fortalece sandboxes, trazas, sesiones y aprobaciones en tiempo real

El SDK de Python para Agentes de OpenAI v0.17.1 es el tipo de lanzamiento de parche que los operadores de agentes deben leer cuidadosamente. Las correcciones de sandbox limitan la extracción de archivos, validan subrutas de repositorios Git, preservan alias de raíz de repositorio, y muestran detalles de error del proveedor. Esos cambios definen el límite entre material fuente local confiable y lo que se copia en un entorno de ejecución. Las correcciones de trazado hacen que el apagado sea de mejor esfuerzo, previenen que errores del exportador maten al trabajador por lotes, y protegen IDs de span no-op, lo cual mejora la confiabilidad de observabilidad durante salidas de proceso y fallas parciales de telemetría. Las correcciones de sesión preservan IDs de herramientas alojadas en sesiones de conversación de OpenAI, omiten registros de sesión corruptos, y mantienen timestamps de metadatos consistentes entre almacenes respaldados por MongoDB y Redis. Las correcciones en tiempo real delimitan aprobaciones de herramientas por clave calificada, despiertan iteradores al cerrar, preservan partes de salida de audio, y evitan mutar buffers de audio propiedad del llamador. El consejo práctico de migración es actualizar si ejecutas agentes en sandbox o agentes en tiempo real, luego probar importaciones de archivos, materialización de Git, falla de exportación de trazado, reanudación de sesión, enrutamiento de aprobación, y cualquier ruta de esquema estricta que dependa de compatibilidad con Completiones de Chat.

[18:30] vLLM 0.20.2 convierte la confiabilidad del servicio en una investigación de kernel y caché

vLLM v0.20.2 es un parche compacto de servicio, pero señala los modos de falla que importan cuando modelos MoE grandes y multimodales realmente se implementan. La atención dispersa de DeepSeek V4 obtiene una corrección para un bloqueo de MTP=1 al re-habilitar la ruta persistente de top-k en Hopper y asegurar que el kernel memset se ejecute en tiempo de captura de gráfico CUDA independientemente de la longitud máxima de secuencia. Eso es un problema de programación y orden de captura, no un problema de calidad del modelo. El lanzamiento también corrige un error del administrador de caché KV del motor V1 donde los bloques KV podían fallar en asignar, que es exactamente la clase de bug que aparece solo bajo ciertos patrones de longitud de secuencia, lote y presión de caché. Para gpt-oss, el parche conecta metadatos de dimensión oculta sin relleno a través de una fake op MoE para que MXFP4 pueda sobrevivir a torch.compile; para Qwen3-VL, elimina una verificación de límite de deepstack que podía fallar bajo carga pesada. Los constructores deben tratar esto como un recordatorio para probar actualizaciones de inferencia con contextos largos, carga multimodal, rutas cuantizadas, configuraciones de gráfico CUDA, y analizadores específicos de modelo antes de pasar a producción.

[27:00] Strands TypeScript 1.1 expande la superficie de control del runtime para aplicaciones de agentes

Strands Agents TypeScript v1.1.0 es útil porque hace que el comportamiento del runtime previamente implícito sea más configurable y observable. Los campos de hooks ahora aparecen alrededor de llamadas de herramientas y después de la invocación, con ordenamiento opcional de hooks y un campo de decisión de fin de turno AfterTools. El soporte MCP se vuelve más preparado para producción a través de paginación de listTools(), logs de servidor, getters de metadatos, controles de fail-open, y limpieza de Symbol.asyncDispose para clientes. Los administradores de conversación ganan compresión proactiva de contexto, la ejecución de grafos y swarm obtienen timeouts, las solicitudes de Bedrock ganan control de timeout, y los agentes locales exponen identidad del modelo. El lanzamiento también incluye interrupciones humano-en-el-bucle, descarga de resultados, nombres de herramientas inválidas normalizados, trabajo de salida estructurada para el bridge WASM, pruebas de contrato WASM, y tipos de estrategia de reintento/backoff de modelo. El takeaway para operadores es que un SDK de agentes es cada vez más un runtime: necesita eventos de ciclo de vida, semántica de limpieza, política de reintento, control de presión de contexto, política de timeout, y puntos de inspección para que las aplicaciones puedan recuperarse de largas listas de herramientas, llamadas de modelo lentas, resultados sobredimensionados, y pausas de aprobación humana sin perder estado.

[35:30] Lista de verificación de implementación para equipos adoptando estas actualizaciones

Si estás construyendo con estas APIs esta semana, separa las llamadas de modelo síncronas de los trabajos de agentes en segundo plano. Gemini Deep Research debe ejecutarse detrás de IDs de interacción almacenados, lógica de reanudación de flujo, presupuestos de herramientas, y advertencias de seguridad de documentos. Las actualizaciones del Agents SDK deben obtener pruebas de regresión para permisos de archivos de sandbox, límites de archivos, subrutas de Git, falla de exportador de telemetría, corrupción de sesión, e identidad de aprobación en tiempo real. Las actualizaciones de servicio de vLLM deben ser evaluadas contra el acelerador exacto, gráfico CUDA, tamaño de caché, cuantización, multimodal, y perfil de longitud de secuencia que usas en producción, no solo un prompt simple de prueba. Los controles de runtime estilo Strands son un indicador para instrumentar tus propios agentes alrededor del ciclo de vida de llamadas de herramientas, compresión de contexto, timeout de grafo, limpieza, y política de reintento. La calificación: Gemini Deep Research es de alto impacto pero necesita envoltura de flujo de trabajo; OpenAI Agents 0.17.1 es una fuerte actualización de seguridad y confiabilidad; vLLM 0.20.2 es importante para operadores que sirven los modelos afectados; Strands 1.1 es más valioso para equipos que necesitan mecánica de runtime de agente explícita en lugar de un wrapper delgado de modelo.