[AI学术] 小初始化对大语言模型的重要性

摘要

大型语言模型为研究智能的产生提供了可行的系统，而不仅仅是如何构建 LLM。尽管进展通常归因于规模、数据和架构，我们展示了参数初始化是训练的基因决定因素，尤其是模型的能力。减少初始化规模能持续改善预训练效果，尤其是在需要推理的任务上。

我们识别了两种广泛使用的经验设置，这些设置限制了小初始化的优势，并展示了如何放宽这些限制以恢复有利的扩展性。此外，我们还发现了一种关键初始化，能够平衡推理与训练。机制上，小初始化驱动了一种独特的发展轨迹：参数首先凝聚成低复杂度结构，然后扩展为更丰富的表示，具体体现了压缩即智能的概念。

在令牌级别的分析显示，增益主要集中在非平凡的、上下文约束的预测上，而不是所有令牌均匀分布。这些结果促使我们提出一个简单的 $b3$-初始化规则：将初始化范围作为一个显式调节工具，默认使用小初始化，这是一种几乎无成本的干预措施，能够改善预训练并增强模型规模下的推理能力。

博主点评： 本文揭示了参数初始化在大型语言模型训练中的重要性，强调了小初始化对推理能力的积极影响。通过简单的调整，研究者们可以实现显著的性能提升，这为未来的模型设计提供了新的思路和方向。