摘要
公共 AI 评估通常被视为终极排行榜,但其背后的证据却是受报告规则、基准修订和缺失数据影响的选择性时间序列。LiveBench 和 Open LLM Leaderboard v2 的重复公共档案作为主要的纵向记录;LMArena 提供了偏好压力测试;GAIA 和 tau-bench 则贡献了有限的代理试点。这些档案共同构成了一个贝叶斯推断问题:在固定的报告惯例下,一个构建的仅终端示例与两个前终端历史相兼容,在相同的终端尾模型下,达到 $0.05$ 的上限所需的时间分别为 $23.03$ 或 $75.13$。在合成后验比较中,面向行动的诊断在观察机制上有所不同。候选选择感知的前沿模型在合成恢复、客观档案预测、偏好转移和不确定性校准方面表现不佳;相应地,固定审计门拒绝了其更强的主张。一个档案与裁定协议重建了公共评估历史,隔离了一个经过验证的时间边界,并驳斥了不支持的前沿主张。
博主点评: 本文通过贝叶斯推断的方法深入探讨了公共 AI 评估的复杂性,强调了数据选择偏差对结果解读的重要影响。研究中提出的审计协议为未来的 AI 评估提供了更为可靠的验证框架,值得关注与借鉴。