[AI学术] 前沿 AI 评估的贝叶斯推断与决策审计

摘要

公共 AI 评估通常被视为终极排行榜，但其背后的证据却是受报告规则、基准修订和缺失数据影响的选择性时间序列。LiveBench 和 Open LLM Leaderboard v2 的重复公共档案作为主要的纵向记录；LMArena 提供了偏好压力测试；GAIA 和 tau-bench 则贡献了有限的代理试点。这些档案共同构成了一个贝叶斯推断问题：在固定的报告惯例下，一个构建的仅终端示例与两个前终端历史相兼容，在相同的终端尾模型下，达到 $0.05$ 的上限所需的时间分别为 $23.03$ 或 $75.13$。在合成后验比较中，面向行动的诊断在观察机制上有所不同。候选选择感知的前沿模型在合成恢复、客观档案预测、偏好转移和不确定性校准方面表现不佳；相应地，固定审计门拒绝了其更强的主张。一个档案与裁定协议重建了公共评估历史，隔离了一个经过验证的时间边界，并驳斥了不支持的前沿主张。

博主点评： 本文通过贝叶斯推断的方法深入探讨了公共 AI 评估的复杂性，强调了数据选择偏差对结果解读的重要影响。研究中提出的审计协议为未来的 AI 评估提供了更为可靠的验证框架，值得关注与借鉴。