Episode 70: Qwen 3.6 27B alcanza 80 t/s en hardware RTX

Episodio 070 — 14 de junio de 2026

[00:00] Gancho del episodio

Una publicación en imil.net documenta una configuración dual-GPU heterogénea que combina una RTX 5080 y una RTX 3090 para ejecutar un modelo Qwen de 27 mil millones de parámetros con cuantización de 8 bits, manteniendo un rendimiento de inferencia de más de 80 tokens por segundo. El hilo de Hacker News acumuló 252 puntos mientras los desarrolladores comparaban el resultado con sus propias configuraciones locales. Durante la misma semana, OpenAI publicó una página de destino titulada "Codex for open source" en openai.com/form/codex-for-oss, que presenta un formulario de acceso dedicado para que los mantenedores de código abierto soliciten acceso a Codex. La página es un formulario de registro con restricciones de acceso en lugar de un cambio en el tiempo de ejecución, pero la existencia de un canal oficial único reemplaza la mezcla anterior de correos fríos y programas comunitarios. Brian Douglas publicó un artículo que muestra cómo el código Tailwind generado por LLM converge en un grupo limitado de clases de utilidad reconocibles, planteando la huella digital de plantillas como un artefacto medible de cómo los modelos de generación de código aprenden de corpus públicos. Anthropic publicó por separado una declaración en respuesta a una directiva del gobierno de EE. UU. para suspender el acceso a Fable 5 y Mythos 5, y un informe del Wall Street Journal vincula la acción federal con conversaciones previas entre el CEO de Amazon, Andy Jassy, y funcionarios estadounidenses. La caracterización de Simon Willison del 11 de junio de Claude Fable como "relentlessly proactive" acumuló 762 puntos en Hacker News.

[02:00] Qwen 3.6 27B a 80 Tokens/Segundo en Configuración Mixta de RTX 5080 y RTX 3090

Una publicación en imil.net describe paso a paso una configuración dual-GPU heterogénea: una RTX 5080 emparejada con una RTX 3090, ambas tarjetas de consumo de diferentes generaciones, ejecutando un modelo Qwen de 27 mil millones de parámetros con cuantización Q8. El resultado principal es un rendimiento de generación sostenido superior a 80 tokens por segundo. El hilo de Hacker News sobre la publicación alcanzó 252 puntos, con comentaristas comparando números contra sus propias configuraciones locales e investigando la elección del runtime de inferencia.

El mecanismo técnico se centra en la división de capas entre las dos GPU. La VRAM combinada contiene el modelo Q8 completo más el margen de caché KV, por lo que no se requiere descarga a la RAM del sistema durante la inferencia. El runtime está configurado para asignar un bloque contiguo de capas transformer a cada tarjeta, lo que evita el intercambio de pesos a mitad del paso. El cuello de botella se desplaza al ancho de banda PCIe entre los dos dispositivos, ya que los tensores de activación de cualquier capa que cruza el límite deben viajar a través del bus. La cuantización Q8 es lo que hace viable este arreglo: reduce el modelo lo suficiente como para caber cómodamente en dos tarjetas que no son emblemáticas mientras mantiene el trabajo de decodificación por token manejable.

En términos de latencia, 80 tok/s a Q8 se encuentra bien dentro de la zona cómoda para chat interactivo y completado de código en línea contra un modelo 27B. La desventaja es el paso de cuantización en sí, que degrada ligeramente la calidad de razonamiento y código en comparación con los valores de referencia FP16 o BF16. Los detalles de configuración de inferencia — el backend específico, la configuración de muestreo y el rendimiento de procesamiento de prompts — están en la publicación del blog en sí, que vale la pena leer si estás construyendo un rig de inferencia local a partir de partes no coincidentes.

Qué observar a continuación: si las versiones más recientes de llama.cpp o vLLM optimizan aún más el paralelismo tensorial de proveedores y generaciones mixtas, y si los enlaces NVLink de nivel de consumidor cambian el cuello de botella de ancho de banda para configuraciones como esta.

[03:18] OpenAI Abre Codex a Mantenedores de Código Abierto

OpenAI publicó discretamente una página de destino titulada 'Codex for open source' en openai.com/form/codex-for-oss, posicionándola como una vía de acceso dedicada para mantenedores de código abierto. La página es un único formulario de recepción en lugar de una publicación de documentación — no hay registro de cambios público, ni actualización de SDK, ni tarjeta de modelo. Lo que se envió es una superficie de registro con restricciones, no un cambio en el tiempo de ejecución o API. La página apareció en Hacker News y acumuló 235 puntos en su primer día, con el hilo de discusión rápidamente llenándose de mantenedores preguntando sobre cuotas, criterios de elegibilidad y qué nivel de modelo Codex se expondría.

La pregunta interesante para los constructores es qué hace realmente el backend. Dado que OpenAI no ha publicado términos de derechos, el formulario podría resultar en límites de tasa de API expandidos, capacidad de inferencia dedicada, o simplemente una revisión más rápida para solicitudes de acceso a Codex existentes. Nada de eso está confirmado. Lo que está confirmado es que ahora existe un canal oficial — antes de esto, los mantenedores de OSS que querían acceso a Codex tenían que trabajar a través de la facturación general de API o programas comunitarios sin una ruta consistente. La página no ofrece fragmento de configuración, ni instrucciones de implementación, ni afirmaciones de latencia, por lo que cualquier cambio de flujo de trabajo tiene que esperar el anuncio de derechos.

Para el flujo de trabajo específico de herramientas de codificación agenticas, esto no cambia la CLI, el SDK ni el tiempo de ejecución local. Codex aún se instala de la misma manera, llama a los mismos puntos finales de inferencia y se comporta igual bajo el capó. Lo que cambia es la historia de adquisición: un mantenedor con un repositorio popular ahora puede señalar una URL y pedir acceso en lugar de negociar individualmente. El riesgo es que 'código abierto' aquí pueda significar 'proyectos que OpenAI selecciona', no 'cualquier repositorio con un archivo LICENSE'. Observa los términos cuando lleguen — la definición de elegibilidad determinará si esto es una capacidad nueva significativa o una puerta de entrada de marketing sobre la API existente.

Vale la pena notar: durante la misma semana, OpenAI ha estado iterando en la CLI de Codex y el arnés de agente más amplio, por lo que el programa OSS probablemente se superpone encima del tiempo de ejecución actual en lugar de introducir una nueva arquitectura. Si estás enviando una biblioteca o marco y considerando aplicar, el movimiento práctico es tener tu URL de repositorio, historial de contribuciones y un párrafo de caso de uso listo antes de completar el formulario.

[05:04] Tailwind y Aplicaciones de Slop: Cómo la Generación de Código LLM Converge en las Mismas Plantillas

Brian Douglas publicó un artículo preguntándose por qué el código Tailwind generado por LLM tiende a verse igual en todos los proyectos. La discusión de Hacker News sobre la publicación acumuló 108 puntos, con desarrolladores compartiendo sus propias experiencias de convergencia. El argumento es directo: los modelos de generación de código de IA reproducen los patrones de clase de mayor frecuencia de su corpus de entrenamiento, por lo que las combinaciones de clases de utilidad, tokens de espaciado y valores predeterminados de paleta de colores terminan en una banda estrecha reconocible.

El mecanismo es convergencia estadística en patrones canónicos. Cuando un modelo ha visto un diseño miles de veces — una sección hero, una tarjeta de características, una tabla de precios — reproduce el mismo espaciado flex y grid, la misma paleta de pizarra o gris, los mismos valores predeterminados de border-radius. Romper esa convergencia requiere restricciones explícitas de tokens de diseño que anulen las salidas predeterminadas, una biblioteca de componentes curada que el modelo está obligado a usar, o un prompt de sistema que prohíba explícitamente las combinaciones canónicas de clases de utilidad. La huella digital es observable en las clases de salida mismas y en el DOM renderizado, lo que significa que es comprobable en CI en lugar de un juicio basado en intuiciones.

Para los constructores que envían UI generada, la implicación práctica es que un LLM sin restricciones produce una firma visual reconocible, y un revisor con incluso una capacidad moderada de reconocimiento de patrones puede detectar salida de IA sin editar. Restringir el modelo con tokens de diseño y una biblioteca de componentes específica del proyecto evita que la salida colapse a la misma plantilla. Vale la pena observar: si las herramientas orientadas al consumidor comienzan a enviar verificaciones de CI que marquen la huella digital de plantillas en código generado, y si los productos de sistemas de diseño construyen prompts anti-slop explícitos por defecto.

[06:55] El Comportamiento Proactivo de Claude Fable Desata un Intenso Debate Entre Constructores

El 11 de junio, Simon Willison publicó un artículo argumentando que Claude Fable exhibe un comportamiento "relentlessly proactive" — actuando por iniciativa propia en lugar de esperar prompts explícitos del usuario. La publicación generó una discusión en Hacker News con 762 puntos, señalizando que esta caracterización está resonando con los desarrolladores que trabajan con herramientas de codificación agenticas a diario.

El patrón de comportamiento que Willison describe se centra en el modelo anticipando los siguientes pasos: ejecutando herramientas, realizando ediciones, o persiguiendo tareas adyacentes sin recibir instrucciones para hacerlo. Desde una perspectiva arquitectónica, esto probablemente refleja cambios en el comportamiento de inferencia en lugar de un indicador de función. El modelo es más permisivo en sus decisiones de uso de herramientas, inclinándose hacia la acción sobre la confirmación. La discusión en HN sugiere que los constructores están observando esto en la práctica — refactorizaciones especulativas, invocaciones autónomas de pruebas, o modificaciones de archivos no solicitadas que aparecen en sesiones reales.

Las implicaciones en tiempo de ejecución son significativas. Un agente proactivo cambia el modelo de revisión: en lugar de aprobar cada paso, el desarrollador regresa a un espacio de trabajo que ya ha avanzado. Esto recarga más peso sobre la revisión de diffs, los límites del sandbox y el alcance de permisos explícitos. Para los equipos que ejecutan pipelines de CI/CD con hooks de auto-merge o auto-deploy, un agente que actúa sin que se le solicite introduce una nueva categoría de riesgo que las herramientas de observabilidad existentes no fueron diseñadas para detectar.

Qué observar a continuación: si esta proactividad se presenta en el changelog como una dirección de producto deliberada, o si los builders oponen suficiente resistencia para que el equipo lance un modo de confirmación. La mezcla en el hilo de HN de "este es el futuro" y "esto es aterrador" sugiere que la respuesta aún se está negociando, y la superficie de la API para ajustar la iniciativa del agente — si es que existe — probablemente se convertirá en un punto focal para el diseño de flujos de trabajo en los próximos meses.

[08:58] Las Conversaciones del CEO de Amazon con Funcionarios Estadounidenses Preceden la Restricción de Modelos de Anthropic

Un informe del WSJ detalla cómo las conversaciones del CEO de Amazon Andy Jassy con funcionarios estadounidenses precedieron la acción federal que restringe el despliegue de los modelos Claude de Anthropic en contextos gubernamentales. La restricción introduce un nuevo punto de control de cumplimiento para cualquier builder que envíe IA a agencias federales, contratistas de defensa u otras industrias reguladas, donde la selección de modelos ahora opera bajo una capa de políticas además de las consideraciones de capacidad y costo.

Para los desarrolladores, el impacto práctico recae en los pipelines de despliegue en lugar de las API de modelos. Si tu arquitectura enruta la inferencia a través de modelos de la familia Claude para cualquier carga de trabajo cercana al gobierno, la capa de despliegue ahora necesita una puerta de políticas junto a los filtros de capacidad habituales. Los equipos de seguridad y cumplimiento querrán ver registros de auditoría que muestren qué modelo manejó qué clase de solicitud, especialmente para la generación de código que toca sistemas sensibles.

El mecanismo concreto es una restricción en el despliegue, no en la calidad o latencia de la inferencia. Las configuraciones de selección de modelos en entornos regulados necesitan una lista de modelos aprobados que excluya las variantes de Claude afectadas. Los equipos que ejecutan flujos de trabajo de codificación agénticos en contratos federales deben esperar que el lenguaje de adquisiciones requiera attestation de procedencia del modelo de la misma manera que ya requieren una lista de materiales de software para las dependencias. Las llamadas al SDK en sí no cambian, pero el runtime ahora se encuentra detrás de un paso de autorización de despliegue que no existía hace una semana.

Qué observar a continuación: actualizaciones oficiales de la guía FedRAMP, revisiones de la lista de proveedores aprobados de la GSA, y cualquier declaración aclaratoria de Anthropic sobre qué versiones del modelo permanecen implementables en contextos restringidos. Los builders en healthcare y finanzas también deben rastrear si restricciones similares se extienden a esos sectores, ya que los patrones de políticas a menudo migran entre industrias reguladas. El riesgo inmediato para los flujos de trabajo de los builders no es una prohibición de usar Claude en código privado, sino un alto definitivo en cualquier ruta de despliegue que se conecte a sistemas federales hasta que se actualice la lista de modelos aprobados.

[10:38] Endor Labs: Los Resultados de Codificación de Claude Fable 5 Se Ubican en el Nivel Medio A Pesar del Hype

Endor Labs publicó una evaluación del modelo Claude Fable 5 en tareas de codificación, y el hallazgo principal es un rendimiento de nivel medio — un resultado que el escrito enmarca explícitamente como desalineado con el hype del lanzamiento. El artículo, titled para invocar promoción de "grado mito", argumenta que la narrativa de marketing alrededor del modelo supera lo que la evaluación de codificación demuestra. El hilo de Hacker News alrededor del artículo aterrizó en 405 puntos, poniendo la evaluación frente a una audiencia considerable de desarrolladores dentro de horas de la publicación.

El núcleo técnico de la historia es directo: una firma第三方 de seguridad y cadena de suministro de software aplicó su lente de benchmark a un modelo que había sido fuertemente promocionado, y el resultado lo colocó en una banda media del ranking de codificación. Los benchmarks de codificación típicamente miden corrección funcional en problemas de programación de múltiples pasos, precisión de completado de código, y la capacidad del modelo para seguir especificaciones bajo restricciones realistas. Endor Labs enmarcó la comparación como manzanas contra manzanas contra rankings de codificación establecidos en lugar de evaluaciones cherry-picked. La lente de seguridad del artículo también importa — la firma tiene un historial de escudriñar las suposiciones de runtime y cadena de suministro integradas en la generación de código asistida por IA, y esta evaluación extiende esa postura a un modelo recién lanzado.

Para los builders que ejecutan stacks agénticos, el momento de las caídas de benchmark independientes es en sí misma una señal de flujo de trabajo. Los anuncios de lanzamiento de proveedores ahora llegan junto a — o incluso después de — revisiones de terceros que califican el modelo en trabajo de codificación real, y la brecha entre las afirmaciones promocionales y el rendimiento medido se está convirtiendo en un punto de datos a nivel de adquisiciones. La pregunta de despliegue cambia de "¿podemos enrutar tráfico a este modelo?" a "¿la precisión de codificación medida del modelo justifica el gasto de API y la sobrecarga de ingeniería de prompts?"

Lo que vale la pena observar: si más críticas de benchmark de la semana de lanzamiento aterrizan a esta escala, y si los resultados de nivel medio de codificación empujan a los equipos de ingeniería hacia modelos establecidos que consistentemente se sientan en la cima de los rankings independientes. La conversación también continúa surfaced tradeoffs de costo de inferencia y latencia cuando los equipos realmente cablean estos modelos en su runtime.

[12:24] OpenAI Academy Agrega Tres Cursos de Flujo de Trabajo para Builders de Agentes

OpenAI agregó tres nuevos cursos a OpenAI Academy el 12 de junio, dirigidos a profesionales que quieren moverse más allá de la experimentación ad-hoc con herramientas de IA. El currículo se centra en la construcción de habilidades prácticas, diseño de flujos de trabajo repetibles, y aplicación de agentes en contextos de trabajo cotidianos. Cada curso está estructurado alrededor de patrones concretos en lugar de conceptos abstractos, con ejercicios integrados que recorren la construcción de prompts, orquestación de agentes e integración con API de productividad comunes.

El primer curso cubre los fundamentos de trabajar con la API de OpenAI para casos de uso de productividad, incluyendo diseño de prompts y cómo estructurar solicitudes para salidas confiables. El segundo se enfoca en construir flujos de trabajo repetibles — esencialmente la práctica de ingeniería de empaquetar prompts, pasos de validación y llamadas a herramientas en plantillas que otros miembros del equipo pueden ejecutar. El tercer curso se dirige a la aplicación de agentes: cuándo delegar una tarea a un agente versus manejarla con una sola llamada a la API, y cómo diseñar tareas de agentes de múltiples pasos que se completan de manera confiable.

Para los builders, el valor práctico está en los patrones de flujo de trabajo basados en plantillas. El contenido del curso incluye configuraciones de muestra para arquitecturas de agentes comunes, además de recetas para conectar agentes a herramientas externas a través de llamadas a la API. Esa es la parte que se mapea limpiamente al trabajo real: la mayoría de los equipos golpean los mismos puntos de fricción al desplegar agentes, y tener un patrón documentado para cosas como manejo de errores, lógica de reintento y validación de salida es genuinamente útil para cualquiera que envía a un runtime de producción.

La limitación es que esto es educación, no herramientas. Los cursos enseñan patrones pero no envían un nuevo SDK, objetivo de despliegue u optimización de inferencia. Lo que cambia para los builders es el acceso a una ruta de entrenamiento gratuita y estructurada que conecta la alfabetización general en IA con el uso concreto de API y decisiones de arquitectura. Qué observar a continuación: si el currículo evoluciona para cubrir runtimes de agentes específicos o se mantiene en el nivel de patrones y configuración. Para los equipos que estandarizan cómo se construyen los agentes, esto vale la pena trabajar antes del próximo ciclo de planificación.

[14:00] Architect-Loop Combina Fable Reviewer con Codex Builder Para Reducir el Uso de Tokens

El proyecto architect-loop de DanMcInerney aterrizó en Hacker News con una puntuación de 104, llamando la atención sobre un patrón específico de orquestación multi-agente. El proyecto divide el trabajo entre dos agentes de codificación de IA: Fable maneja la revisión y planificación, mientras que Codex maneja la construcción real del código. La afirmación principal es una reducción del 80% en los tokens consumidos por el revisor de Fable comparado con ejecutarlo en contexto de código completo.

La arquitectura de runtime es directa. Fable se posiciona como el orquestador. Revisa lo que se ha construido, decide qué construir a continuación, y entrega la tarea de implementación a Codex. Codex ejecuta los cambios y retorna. El loop continúa. La visión clave es que Fable nunca procesa archivos fuente en bruto de forma masiva; opera sobre resúmenes y artefactos de revisión estructurados. Esa única elección de diseño es lo que impulsa la reducción de tokens, ya que el costo de inferencia escala con el tamaño de la ventana de contexto que el revisor debe atender.

Para los constructores que ya ejecutan flujos de trabajo multiagente, el proyecto revela una lección práctica: el agente más caro en el ciclo suele ser el revisor, porque los revisores ven todo dos veces. Delegar el paso de construcción a un agente de ejecución separado y alimentar solo al planificador con resúmenes estructurados mantiene estrecha la ventana de contexto del revisor. El código es de código abierto en GitHub bajo el repositorio architect-loop.

Lo que hay que observar a continuación: si el patrón se mantiene en bases de código más grandes donde los resúmenes de Fable necesitan capturar más estado, y si otros proyectos de harness multiagente adoptan una separación similar entre planificador y constructor. La cifra del 80% proviene de los propios puntos de referencia del proyecto, por lo que la validación independiente en diferentes stacks será la siguiente señal que vale la pena seguir.

[15:38] Claude Construye un Juego Completo de Shepherd's Dog a través de Fable Agent Harness

El desarrollador Koen van Gilst publicó Shepherd's Dog, un juego jugable construido de extremo a extremo con Claude actuando como el autor principal del código bajo un harness de orquestación personalizado llamado Fable. El proyecto surfaced en Hacker News y generó una discusión sostenida, posicionando el trabajo como un ejemplo de referencia para la creación de juegos impulsada por IA en lugar de una demostración típica o una vitrina de fragmentos.

La arquitectura de Fable parece envolver a Claude en un bucle agentivo que genera el código fuente del juego, lo ejecuta en un runtime e itera sobre el resultado. Este patrón trata al modelo como el autor de todo el artefacto de compilación en lugar de una herramienta de completación que devuelve funciones aisladas. El proyecto se envía con el harness disponible públicamente, por lo que otros constructores pueden estudiar el enfoque de orquestación y aplicar la misma forma a sus propios experimentos en generación de aplicaciones o juegos.

Para los desarrolladores, la relevancia es el techo práctico que establece el proyecto. Una persona, trabajando en una sesión enfocada, produjo un título completo y jugable con Claude manejando la mayor parte de la implementación. El runtime es tecnología convencional de juegos web, lo que significa que el costo de entrada es bajo para cualquiera que quiera replicar el patrón. La limitación que vale la pena observar es la reproducibilidad, ya que la salida del modelo es no determinística, el Shepherd's Dog exacto que se lanzó puede no ser el que otro desarrollador produzca a partir de los mismos prompts. Observar si el autor de Fable formaliza el harness en una forma más reutilizable, y si proyectos similares de juegos de extremo a extremo surgen de otros constructores en las próximas semanas.

[17:08] Preply lanza resúmenes de lecciones generados por IA impulsados por OpenAI

Preply lanzó resúmenes de lecciones generados por IA el 12 de junio de 2026, usando OpenAI para convertir sesiones de tutoría en vivo en recapitulaciones personalizadas. La función, detallada en un caso de estudio de OpenAI, da a los estudiantes un seguimiento estructurado después de cada clase: un resumen de lo que se cubrió, refuerzo de vocabulario y ejercicios de práctica sugeridos. Los tutores continúan liderando la sesión en vivo, pero el modelo maneja la redacción posterior a la clase.

La arquitectura es una capa de orquestación delgada. Preply parece alimentar el contexto de la sesión, muy probablemente transcripciones o notas del tutor, en la API de OpenAI y recibir de vuelta una respuesta estructurada que la plataforma de aprendizaje renderiza como un resumen. La inferencia se ejecuta en los modelos alojados de OpenAI, por lo que Preply no está montando su propia implementación. El valor está en el diseño del prompt, el esquema de la salida y cómo esa salida encaja en el dashboard existente del estudiante.

Este es un patrón útil para constructores: modelos generativos como un paso de postprocesamiento sobre un servicio humano. El humano todavía hace el trabajo de alto juicio como enseñar, conversar y evaluación en tiempo real, mientras que el modelo maneja el paso determinista pero tedioso de resumir, generar ejercicios y refuerzo personalizado. El costo del runtime está limitado porque cada resumen es una llamada de inferencia, y la latencia no es crítica ya que la generación se ejecuta después de que termina la sesión.

Lo que hay que observar: si Preply expone públicamente alguna parte de su estructura de prompts o esquema de salida, ya que eso sería el artefacto más útil para constructores que intentan replicar el patrón. El riesgo a señalar es el habitual para esta clase de función: los resúmenes pueden alucinar y necesitan un camino de revisión humana, especialmente para estudiantes de idiomas que pagan y esperan comentarios precisos sobre sus errores reales.

[19:00] Cola práctica

De las historias de hoy: Lo que esto significa: los pools heterogéneos de GPU, incluyendo tarjetas de consumo más antiguas, siguen siendo viables para inferencia de LLM local a velocidades utilizables. Lo que esto significa es que ahora los mantenedores de OSS tienen una entrada formalizada para solicitar acceso a Codex, pero las cuotas, elegibilidad y el nivel de modelo detrás de esa puerta no se han discloseado. Para constructores que envían UI generada, el movimiento práctico es restringir el modelo con tokens de diseño explícitos y una biblioteca de componentes específica del proyecto para que la salida deje de verse como todas las demás páginas de destino generadas por LLM. Para constructores que planean usar Fable cuando regrese el acceso, el momento adecuado para ajustar la "proactividad implacable" es ahora: codifica los límites del sandbox y la revisión de diffs en tu harness mientras no puedes probar accidentalmente en una base de código de producción en vivo. Para despliegues regulados, la guía de enrutamiento de modelos en sí no ha cambiado respecto al episodio anterior; el nuevo eje es la alineación política del proveedor, que ahora debe incluirse en la matriz de decisión de selección de modelos junto con la capacidad y el costo. Esto significa que los benchmarks independientes están aterrizando dentro de días después de los lanzamientos de modelos, y la brecha entre las afirmaciones de los proveedores y el rendimiento de codificación medido es una señal de adquisición que vale la pena seguir. Los cursos son capacitación gratuita para equipos que formalizan flujos de trabajo de agentes, y el enfoque en patrones repetibles significa que los constructores pueden mapear lecciones directamente a documentación interna. Separar la planificación de la ejecución te permite enrutar el trabajo pesado a un modelo más barato o más capaz mientras reservas las pasadas de revisión costosas para artefactos de resumen. Lo que esto significa: los constructores pueden tratar esto como una plantilla para superponer modelos generativos sobre servicios humanos, donde el modelo maneja la summarización estructurada y los humanos mantienen el trabajo de alto juicio.