在构建单一多任务大型语言模型(LLM)时,模型合并已成为一种实用的后期训练策略,旨在将多个任务专用模型结合起来。然而,现有大多数方法依赖于后期合并,即仅在训练后对任务特定模型进行一次合并。这种一次性聚合通常会遭遇任务干扰,导致各个任务间的信息丢失。
本研究展示了用迭代多次合并协议替代后期合并的有效性,从而提升多任务性能。基于这一见解,我们提出了METIS(Mitigating Erasure from Task Interference for Stable many-shot merging),这是一种关注损失的多次合并方法,通过任务级损失差距加权和共识掩蔽来解决后期合并中的信息丢失问题。值得注意的是,METIS在表现最差的任务上展现出显著的性能提升,有效减轻了信息丢失的现象。
(项目页面:METIS)
博主点评: 本文通过引入多次合并策略,成功解决了传统后期合并中存在的信息丢失问题,展现了在多任务学习领域的巨大潜力。METIS方法的创新性与实用性为未来的多任务模型开发提供了新的思路,值得深入研究与应用。