摘要
大型语言模型(LLM)越来越多地作为代理系统的执行引擎,但它们仍然通过顺序文本接口消耗上下文。这与现代结构化代理工作流不匹配,因为这些工作流中的独立分支用于探索子任务、检索证据或生成候选解决方案,最终再进行合成步骤。
现有系统通常通过连接文本输出合并这些分支,这样会丢失并行结构并产生冗余的预填充计算。
在这项工作中,我们提出了Parallel-Synthesis,一个即插即用的框架,使合成器能够直接消费由并行工作代理生成的KV缓存。Parallel-Synthesis结合了一个缓存映射器,用于校准独立生成的分支缓存,并配备一个经过微调的合成器适配器,使其能够从这种非顺序缓存接口生成内容。
我们使用数据训练Parallel-Synthesis,暴露合成器于并行缓存上下文,教授跨缓存分支的聚合,并从基于标准文本连接的合成中提炼推理行为。
在涵盖数学、科学问答、代码生成、GAIA和多代理数据库诊断的九个下游数据集上,Parallel-Synthesis在七个数据集上与基于文本的合成相匹配或超越,并在其他两个数据集上保持接近。它还将首次生成时间缩短了2.5倍至11倍,表明基于直接缓存的合成是更本地化且高效的并行代理分支合成接口。
博主点评: 该研究为并行代理系统中的合成过程提供了创新思路,通过直接利用KV缓存,不仅提升了效率,还保留了分支的结构性,这将对未来的多任务处理与智能代理应用产生深远影响。