摘要
持续评估大型语言模型(LLM)产品依赖于一个强大的 LLM 评判者,作为真相的基础:一个廉价的监控系统为每次交互打分,当分数降低时,团队会被通知。然而,该评判者本身也是一个通过 API 访问的模型,版本更新或评分提示的更改会影响其评分。因此,漂移警报的含义模糊不清,可能是产品质量下降或评判者发生变化。
为了解决这种模糊性,我们引入了一组固定的人类标注锚点,当前的评判者在稳定的间隔内对其进行重新评分,并采用第二种下注过程来衡量评判者与人类之间的差距,以及一个保护窗口规则返回结果 {none, system, judge}。我们证明了随时有效性、单向识别(只有评判者可以移动锚点)、一个设计法则的归因竞赛,即锚点必须超越它们所保护的主要过程,以及过程的正交性。
在两次真实的评判者变化中,静默版本更新被检测为评判者漂移,60次实验中全部成功,且无一例误归因于系统;而在120次实验中,污染严格提示的变化在110次中正确归因,保护宽度为300,尽管行业默认的滚动z检验在75%的无漂移流中发出虚假警报。每个实验在第二个领域(TL;DR 摘要)中均可复制,且未进行任何重新调优。在不同领域中,变化正是竞赛预测的结果:严格提示变化在此领域使得评分波动更大,因此锚点触发得更快,归因变得完美(240/240)。监控的成本大约是强评判每个项目的0.64,或在更便宜但反应较慢的情况下为0.21。
博主点评: 本文通过引入固定的人类标注锚点和创新的监控机制,成功地解决了LLM评估中的归因问题,提供了一种高效且准确的评估方法。该方法不仅有效降低了行业中的误警报率,还在多个领域中展示了其广泛的适应性与可靠性,具有重要的实用价值和研究意义。