[AI学术] 颠覆传统：基于偏好的轨迹评估方法

摘要

离线评估智能系统通常将轨迹简化为最终成功，忽视了部分进展的信息，从而导致广泛的平局现象，这会显著降低统计效率，减少有效样本量，并削弱区分系统的能力。我们提出了一种基于偏好的轨迹评估方法，该方法通过对进展和返回时间轮廓的时间偏好直接比较轨迹。

我们发现，在各种智能和交互基准测试中，标准的基于成功的度量在大约 75% 的实例上产生平局比较，而基于轨迹的偏好将平局减少到约 35%，从而提高了区分能力、排名稳定性和数据效率。我们的结果表明，基准饱和现象通常归因于数据收集不良或问题难度，也可能与评估指标的选择有关。

博主点评： 新的偏好基轨迹评估方法有望解决传统评估中存在的统计低效问题，通过保留部分进展信息，显著提高了系统比较的准确性。这一创新为智能系统的性能评估提供了新的视角，值得在未来的研究中深入探讨。