[AI学术] 编辑单个神经元能否修复LLM中的重复循环问题？

在这篇论文中，我们探讨了Gemma 4指令调优模型在处理长的事实枚举提示时出现的重复循环问题，比如列出每一集电视节目、88个IAU星座或151种原始宝可梦。这些模型在这些情况下高达95%的频率陷入重复，表现为严格的逐字循环或条目逐渐衰减为单一答案。为了探明这种行为的根源，我们采用了逐层消融和逐神经元归因的方法，并通过全生成扫查确认最强候选者。结果显示，循环现象源于一小部分多层感知器（MLP）神经元，或者在26B-A4B混合专家模型中，少数路由专家。我们通过静态权重编辑来抑制这些神经元的影响，甚至可以仅通过一个符号反转的神经元进行“手术”。有效编辑的规模随模型规模的增大而增加，但在所有情况下，循环模式都可以在正常生成预算下得到解决，同时保留通用基准分数。然而，这些编辑并不能解决所有问题：我们还研究了较长的思考预算，在这种情况下，两个较大的模型明显进入了“绝望循环”，即在无法回忆某个事实时自我纠正，耗尽预算而不作最终回答。我们证明这种残留故障虽然减少，但并未消除，并认为这根本上是知识精度问题，而非可移除的电路；权重手术可以删除一个循环，但无法提供缺失的事实。我们的结果不仅展示了这种具体生成病理可以局部化到少数参数并被编辑掉的可行性，也明确了这种方法的局限性。

博主点评： 本文通过对神经元的精细编辑，展示了处理LLM生成病理的潜力，但同时强调了知识精度的重要性，表明简单的权重调整无法完全解决模型的记忆不足问题。未来的研究需进一步探索如何增强模型的知识基础。