NeFut Logo NeFut
EN 管理员登录

[AI学术] 颠覆传统:基于偏好的轨迹评估方法

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#AI #Machine Learning #optimization

摘要

离线评估智能系统通常将轨迹简化为最终成功,忽视了部分进展的信息,从而导致广泛的平局现象,这会显著降低统计效率,减少有效样本量,并削弱区分系统的能力。我们提出了一种基于偏好的轨迹评估方法,该方法通过对进展和返回时间轮廓的时间偏好直接比较轨迹。

我们发现,在各种智能和交互基准测试中,标准的基于成功的度量在大约 75% 的实例上产生平局比较,而基于轨迹的偏好将平局减少到约 35%,从而提高了区分能力、排名稳定性和数据效率。我们的结果表明,基准饱和现象通常归因于数据收集不良或问题难度,也可能与评估指标的选择有关。

博主点评: 新的偏好基轨迹评估方法有望解决传统评估中存在的统计低效问题,通过保留部分进展信息,显著提高了系统比较的准确性。这一创新为智能系统的性能评估提供了新的视角,值得在未来的研究中深入探讨。

原文链接: https://arxiv.org/abs/2606.17541

[h] 返回首页