NeFut Logo NeFut
EN 管理员登录

[AI学术] AI评估的统一突破:Every Eval Ever 方案与社区库

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:13
#AI #Machine Learning #Open Source

AI评估在测试和理解进展方面被广泛使用,但不同的评估者带来了不一致性,挑战了分析和比较的能力。首先,结果以不兼容的格式保存,分散在排行榜、论文、博客帖子、评估日志和自定义库中。其次,结果由不同的评估框架生成,这些框架对名义上相同的评估产生不同的分数,并不一致地记录元数据,阻碍了比较、跨社区的评估科学、成本降低和重用。

为此,我们推出了Every Eval Ever,这是第一个共享的模式和社区众包的AI评估结果库。该模式标准化了如何在统一的单个JSON文档中表示评估。它设计为源无关,能够从评估工具和论文中吸收结果,并可选择性地存储每个实例的输出以进行细粒度分析。

我们的贡献包括: (i) 一个由社区管理的元数据模式,伴随一个实例级模式,这是首次此类标准化努力; (ii) 从流行格式、评估工具和排行榜到统一模式的自动转换器; (iii) 一个众包的社区数据库,托管在Hugging Face上,目前涵盖22,235个模型、2,273个独特基准和31种评估格式。

原文链接: https://arxiv.org/abs/2606.14516

[h] 返回首页