摘要
本文通过对大型语言模型(LLM)在道德提示下的行为审计,揭示了模型的输出不仅受其言语影响,更涉及内部计算机制。我们使用Transluce,一个AI驱动的机制可解释性平台,针对LLaMA 3.1-8B-Instruct模型进行了54个道德提示的分析,这些提示分为四个类别:17个困境、政策和元伦理问题(B1);6个角色扮演场景(B3);以及一个控制的电车对比实验,其中切换机制变化,参与者身份属性固定(B4,15个提示)或切换机制固定,身份属性变化(B5,16个提示)。
两组互补的度量体系,包含五个集群级度量和一个六度量神经元级面板,均指向一种情况锚定效应:特定领域的表征在每个类别的激活列表顶部占主导地位。模型的伦理标记能力基本保持不变,但其显著性(排名、优先级、列表顶部出现的频率)对提示选择的解释框架高度敏感。B4与B5的对比证实,模型关注于变化的表面特征:聚合伦理度量无明显差异,但主导的非伦理干扰项与设计相吻合。
多温度审计识别出一个候选伦理神经元(L16/N3837),在不同温度下保持稳定;在两个前沿模型上的交叉模型行为代理提供了初步证据,表明自我报告的道德关注点存在分歧,这与对齐包装器(Alignment Wrapper)一致,在该模型中,强化学习人类反馈(RLHF)重新排序表面文本,而未移除基础领域优先框架。我们将这些统一为框架条件道德计算:提示的表面词汇选择特征流形,道德结论则是该选择的下游结果。行为对齐需辅以机制对齐:一个研究计划旨在探讨伦理相关特征在控制框架变化下是否能被证明具有因果优先性,而不仅仅是在解释中显得喧闹。
博主点评: 本文通过机制可解释性的方法深入探讨了LLaMA模型的道德计算,强调了提示框架对模型输出的显著影响。这种研究不仅推动了对大型语言模型伦理决策过程的理解,也为未来的模型对齐研究提供了重要的方向,值得关注和深入探讨。