[AI学术] AI评估的统一突破：Every Eval Ever 方案与社区库

AI评估在测试和理解进展方面被广泛使用，但不同的评估者带来了不一致性，挑战了分析和比较的能力。首先，结果以不兼容的格式保存，分散在排行榜、论文、博客帖子、评估日志和自定义库中。其次，结果由不同的评估框架生成，这些框架对名义上相同的评估产生不同的分数，并不一致地记录元数据，阻碍了比较、跨社区的评估科学、成本降低和重用。

为此，我们推出了Every Eval Ever，这是第一个共享的模式和社区众包的AI评估结果库。该模式标准化了如何在统一的单个JSON文档中表示评估。它设计为源无关，能够从评估工具和论文中吸收结果，并可选择性地存储每个实例的输出以进行细粒度分析。

我们的贡献包括： (i) 一个由社区管理的元数据模式，伴随一个实例级模式，这是首次此类标准化努力； (ii) 从流行格式、评估工具和排行榜到统一模式的自动转换器； (iii) 一个众包的社区数据库，托管在Hugging Face上，目前涵盖22,235个模型、2,273个独特基准和31种评估格式。