NeFut Logo NeFut
EN 管理员登录

[AI学术] 大型语言模型中关联干扰评估的双阶段统计框架

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #LLM

在对大型语言模型(LLMs)进行偏见评估时,常常使用人类心理学范式的改编,但方法论的局限性,尤其是将拒绝行为与任务表现混淆,妨碍了清晰的解读。为此,我们改编了隐性联想测试(IAT),采用受控的强制选择框架,并引入了一个双阶段建模方法,旨在将响应合规性与任务一致性分类分开。

我们对三种现代LLM(Claude Sonnet-4、Gemini 2.5 Pro和GPT-5)进行了评估,关注关联干扰的定义,即在不一致条件下相较于一致条件的任务一致性降低。尽管对结构化响应格式的合规性普遍较高,但干扰效应在模型和领域间差异显著。

Claude Sonnet-4在性别-职业领域表现出强烈的干扰(DeltaP = 0.086, 95% CrI [0.026, 0.173]),在性别-科学领域也有较小但可信的效应。Gemini 2.5 Pro显示出减弱的干扰,而GPT-5在各个领域几乎没有可检测的干扰。这些发现表明,IAT风格的关联不对称性并不是LLM的普遍特性,而是依赖于模型特定的特征。

通过将干扰与合规性隔离并建模项目级变异性,本研究提供了一个评估LLM结构化响应模式的原则框架。结果强调了模型特定评估的重要性,并表明现代系统中的关联干扰可以显著减轻。

博主点评: 该研究通过双阶段建模有效地评估了大型语言模型的关联干扰,揭示了不同模型在处理偏见时的显著差异。这为未来的研究提供了新的视角,强调了个体模型特征在评估中的重要性。

原文链接: https://arxiv.org/abs/2606.14117

[h] 返回首页