NeFut Logo NeFut
EN 管理员登录

[AI学术] 小初始化对大语言模型的重要性

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:47
#AI #Machine Learning #Neural

摘要

大型语言模型为研究智能的产生提供了可行的系统,而不仅仅是如何构建 LLM。尽管进展通常归因于规模、数据和架构,我们展示了参数初始化是训练的基因决定因素,尤其是模型的能力。减少初始化规模能持续改善预训练效果,尤其是在需要推理的任务上。

我们识别了两种广泛使用的经验设置,这些设置限制了小初始化的优势,并展示了如何放宽这些限制以恢复有利的扩展性。此外,我们还发现了一种关键初始化,能够平衡推理与训练。机制上,小初始化驱动了一种独特的发展轨迹:参数首先凝聚成低复杂度结构,然后扩展为更丰富的表示,具体体现了压缩即智能的概念。

在令牌级别的分析显示,增益主要集中在非平凡的、上下文约束的预测上,而不是所有令牌均匀分布。这些结果促使我们提出一个简单的 $b3$-初始化规则:将初始化范围作为一个显式调节工具,默认使用小初始化,这是一种几乎无成本的干预措施,能够改善预训练并增强模型规模下的推理能力。

博主点评: 本文揭示了参数初始化在大型语言模型训练中的重要性,强调了小初始化对推理能力的积极影响。通过简单的调整,研究者们可以实现显著的性能提升,这为未来的模型设计提供了新的思路和方向。

原文链接: https://arxiv.org/abs/2606.17945

[h] 返回首页