NeFut Logo NeFut
EN 管理员登录

[AI学术] LLM评判的可靠性与偏见:翻转硬币的裁判?

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:13
#algorithm #AI #Open Source

摘要

LLM作为裁判的模型广泛用于排名模型输出、训练奖励模型和填充公共排行榜,然而其运行之间的可靠性仍未得到充分的表征。我们研究了使用两种OpenAI裁判模型(GPT-4o-mini和GPT-4.1-mini)在29个任务中的重复相同评估,涵盖10个类别,每个问题进行50次成对试验和50次逐点试验,同时补充了温度和提示敏感性消融实验。

在不同裁判之间,成对偏好平均翻转13.6%的时间,28%的问题超过20%的翻转率,有一个问题达到56%。GPT-4o-mini还表现出显著的首位偏见(72%的A多数,p = 0.024)。与此同时,均值逐点评分差距较小(0.19--0.36,满分10分),在总体上没有统计学显著性,导致成对与逐点之间的差距:裁判经常选择胜者,即使他们自己的标量评分几乎没有提供有意义的质量差异的证据。

除了裁判内部的不稳定性,裁判之间的一致性仅为76%($\text{kappa} = 0.51$),语义等效的提示模板在25%的测试案例中改变了多数结果,而确定性解码减少了但并未消除不一致性。可靠性曲线分析表明,在我们的数据集中,平均需要11次重复试验才能以95%的概率恢复50次试验的参考裁决,对于高方差问题则需要15次。这些发现表明,单次试验的LLM裁判在高风险评估中往往过于嘈杂,且多次试验聚合、位置随机化和明确的不确定性报告应成为标准实践。由于这两位裁判均来自单一提供者,跨提供者的复制仍然是一个重要的后续步骤。

博主点评: 本文揭示了LLM作为裁判的局限性,尤其是在高风险领域的应用。研究表明,单次判决的不稳定性可能导致不可靠的结果,因此建议采用多次试验与随机化方法来提高评估的准确性和可靠性。对于未来的研究,跨提供者的验证将是关键。

原文链接: https://arxiv.org/abs/2606.13685

[h] 返回首页