低秩适应(LoRA)及其变体为预训练模型的完全微调提供了一种内存和计算效率更高的替代方案。然而,关于这些方法的比较泛化能力以及低秩更新的结构限制如何维持有效适应性能仍然存在疑问。我们提供了一个历史框架,涵盖过去(完全微调和原始LoRA)、现在(不同的LoRA变体),并通过在现有LoRA变体中诱导稀疏性提出了更简单、更便宜、参数高效的扩展:便宜的LoRA(cLA),训练一个低秩因子,而其他因子保持固定(确定性或随机变体)。我们将cLA框架视为不对称LoRA的结构化实例,作为完全微调的受控列子空间限制。我们为这些变体推导了信息论泛化误差界限,标志着该领域的首次努力之一。通过对11种微调方法在10个预训练模型和14个数据集上的实证评估,我们分析了微调模型的性能和泛化能力,使用了损失景观和谱分析等工具。尽管微调模型对预训练模型、数据集和其他因素的敏感性较高,我们的研究表明,限制基于LoRA的PEFT方法的适应性到稀疏、结构化的列空间在任务中仍然具有竞争力,且与其参数匹配的基线相比,训练时间减少了高达10%,峰值GPU内存减少了15%,即使在未经优化的稀疏实现下。我们的理论和实证泛化度量为其成本效益适应提供了一种比常用分析工具更一致和原则化的方法。代码和概述可在:https://elicaden.github.io/Beyond_LoRA/ 获取。
博主点评: 本文探讨了在LoRA框架下引入稀疏性的潜力,提供了理论和实证支持,显示出在不牺牲性能的情况下,如何有效降低训练成本。尤其是通过cLA和${c}^3$LA等新方法,推动了对低秩适应的深入理解,值得关注。