[AI学术] 大型语言模型中关联干扰评估的双阶段统计框架

在对大型语言模型（LLMs）进行偏见评估时，常常使用人类心理学范式的改编，但方法论的局限性，尤其是将拒绝行为与任务表现混淆，妨碍了清晰的解读。为此，我们改编了隐性联想测试（IAT），采用受控的强制选择框架，并引入了一个双阶段建模方法，旨在将响应合规性与任务一致性分类分开。

我们对三种现代LLM（Claude Sonnet-4、Gemini 2.5 Pro和GPT-5）进行了评估，关注关联干扰的定义，即在不一致条件下相较于一致条件的任务一致性降低。尽管对结构化响应格式的合规性普遍较高，但干扰效应在模型和领域间差异显著。

Claude Sonnet-4在性别-职业领域表现出强烈的干扰（DeltaP = 0.086, 95% CrI [0.026, 0.173]），在性别-科学领域也有较小但可信的效应。Gemini 2.5 Pro显示出减弱的干扰，而GPT-5在各个领域几乎没有可检测的干扰。这些发现表明，IAT风格的关联不对称性并不是LLM的普遍特性，而是依赖于模型特定的特征。

通过将干扰与合规性隔离并建模项目级变异性，本研究提供了一个评估LLM结构化响应模式的原则框架。结果强调了模型特定评估的重要性，并表明现代系统中的关联干扰可以显著减轻。

博主点评： 该研究通过双阶段建模有效地评估了大型语言模型的关联干扰，揭示了不同模型在处理偏见时的显著差异。这为未来的研究提供了新的视角，强调了个体模型特征在评估中的重要性。