[AI学术] LLM评判的可靠性与偏见：翻转硬币的裁判？

摘要

LLM作为裁判的模型广泛用于排名模型输出、训练奖励模型和填充公共排行榜，然而其运行之间的可靠性仍未得到充分的表征。我们研究了使用两种OpenAI裁判模型（GPT-4o-mini和GPT-4.1-mini）在29个任务中的重复相同评估，涵盖10个类别，每个问题进行50次成对试验和50次逐点试验，同时补充了温度和提示敏感性消融实验。

在不同裁判之间，成对偏好平均翻转13.6%的时间，28%的问题超过20%的翻转率，有一个问题达到56%。GPT-4o-mini还表现出显著的首位偏见（72%的A多数，p = 0.024）。与此同时，均值逐点评分差距较小（0.19--0.36，满分10分），在总体上没有统计学显著性，导致成对与逐点之间的差距：裁判经常选择胜者，即使他们自己的标量评分几乎没有提供有意义的质量差异的证据。

除了裁判内部的不稳定性，裁判之间的一致性仅为76%（$\text{kappa} = 0.51$），语义等效的提示模板在25%的测试案例中改变了多数结果，而确定性解码减少了但并未消除不一致性。可靠性曲线分析表明，在我们的数据集中，平均需要11次重复试验才能以95%的概率恢复50次试验的参考裁决，对于高方差问题则需要15次。这些发现表明，单次试验的LLM裁判在高风险评估中往往过于嘈杂，且多次试验聚合、位置随机化和明确的不确定性报告应成为标准实践。由于这两位裁判均来自单一提供者，跨提供者的复制仍然是一个重要的后续步骤。

博主点评： 本文揭示了LLM作为裁判的局限性，尤其是在高风险领域的应用。研究表明，单次判决的不稳定性可能导致不可靠的结果，因此建议采用多次试验与随机化方法来提高评估的准确性和可靠性。对于未来的研究，跨提供者的验证将是关键。