摘要
LLM(大型语言模型)评判者被用来减少评估开放式文本生成所需的人力成本。然而,这些评判者的可靠性在很大程度上取决于它们与人类评审者的对齐程度,而这一属性本身又依赖于昂贵的人类注释。
在本研究中,我们提出了一种名为 Metric Match 的方法,用于从有限的注释中估计 LLM 评判者的基于相关性的可靠性指标。Metric Match 选择一组样本进行人类注释,使得该子集在获得的合成标签上与总体可靠性指标相匹配。
我们通过实验证明,Metric Match 在四种不同的相关性指标和 15 个数据集上相较于随机子集选择实现了 0.838 的胜率,平均估计误差降低了 18.7%,并将注释需求减少了 32.5%。我们提供了一个成本模型,并突出展示了一个医疗案例研究,其中我们的方法相比随机选择节省了 $1,041.67 的专家注释费用。
此外,我们将任务从可靠性估计转变为可靠性分类,即判断给定的评判者是否超过部署阈值,Metric Match 在此任务中也优于随机选择。
所有项目代码均已公开,并提供了可安装的包以便于使用。
博主点评: 本文提出的 Metric Match 方法有效降低了 LLM 评判者对人类注释的依赖,减少了人类注释的成本,具有重要的应用价值,尤其在医疗领域的案例中展现了显著的经济效益。其方法论的创新性和实用性为 LLM 的评估提供了新的视角。