[AI学术] 突破性的 LLM 评估管道：系统与评判者的漂移真相

摘要

持续评估大型语言模型（LLM）产品依赖于一个强大的 LLM 评判者，作为真相的基础：一个廉价的监控系统为每次交互打分，当分数降低时，团队会被通知。然而，该评判者本身也是一个通过 API 访问的模型，版本更新或评分提示的更改会影响其评分。因此，漂移警报的含义模糊不清，可能是产品质量下降或评判者发生变化。

为了解决这种模糊性，我们引入了一组固定的人类标注锚点，当前的评判者在稳定的间隔内对其进行重新评分，并采用第二种下注过程来衡量评判者与人类之间的差距，以及一个保护窗口规则返回结果 {none, system, judge}。我们证明了随时有效性、单向识别（只有评判者可以移动锚点）、一个设计法则的归因竞赛，即锚点必须超越它们所保护的主要过程，以及过程的正交性。

在两次真实的评判者变化中，静默版本更新被检测为评判者漂移，60次实验中全部成功，且无一例误归因于系统；而在120次实验中，污染严格提示的变化在110次中正确归因，保护宽度为300，尽管行业默认的滚动z检验在75%的无漂移流中发出虚假警报。每个实验在第二个领域（TL;DR 摘要）中均可复制，且未进行任何重新调优。在不同领域中，变化正是竞赛预测的结果：严格提示变化在此领域使得评分波动更大，因此锚点触发得更快，归因变得完美（240/240）。监控的成本大约是强评判每个项目的0.64，或在更便宜但反应较慢的情况下为0.21。

博主点评： 本文通过引入固定的人类标注锚点和创新的监控机制，成功地解决了LLM评估中的归因问题，提供了一种高效且准确的评估方法。该方法不仅有效降低了行业中的误警报率，还在多个领域中展示了其广泛的适应性与可靠性，具有重要的实用价值和研究意义。