随着大语言模型(LLMs)在实际应用中的广泛部署,对齐不再由单一的安全性或有用性原则主导,而是由提供者或应用特定的模型规格决定。这些规格通常较长、结构化且频繁更新,而现有的对齐管道缺乏将其作为训练信号的系统机制。本文提出了规格驱动的对齐新范式,将提供者撰写的模型规格视为主要对齐目标,而不是抽象原则或静态基准。
为实现这一范式,我们引入了SpecAlign框架,直接从规格文档合成对齐数据。SpecAlign结合了结构化规则注释、可控规格实例化和多智能体对抗数据合成,生成能够捕捉合规行为和有意义规格违反的细粒度、边界感知的偏好对。多种模型规格和基础模型的实验表明,使用SpecAlign进行训练能够持续提升规则合规性,同时保持一般能力,避免过于保守的行为。这些结果表明,将对齐基础在明确的模型规格上,能够快速、精准且可扩展地适应不断变化的政策要求。
博主点评: SpecAlign的提出为大语言模型的对齐问题提供了新的解决思路,强调了将模型规格作为对齐目标的重要性,具有实际应用中的重要价值和前景。通过合成数据的方式,能够更好地适应不断变化的需求,提升模型的灵活性和准确性。