AI评估在测试和理解进展方面被广泛使用,但不同的评估者带来了不一致性,挑战了分析和比较的能力。首先,结果以不兼容的格式保存,分散在排行榜、论文、博客帖子、评估日志和自定义库中。其次,结果由不同的评估框架生成,这些框架对名义上相同的评估产生不同的分数,并不一致地记录元数据,阻碍了比较、跨社区的评估科学、成本降低和重用。
为此,我们推出了Every Eval Ever,这是第一个共享的模式和社区众包的AI评估结果库。该模式标准化了如何在统一的单个JSON文档中表示评估。它设计为源无关,能够从评估工具和论文中吸收结果,并可选择性地存储每个实例的输出以进行细粒度分析。
我们的贡献包括: (i) 一个由社区管理的元数据模式,伴随一个实例级模式,这是首次此类标准化努力; (ii) 从流行格式、评估工具和排行榜到统一模式的自动转换器; (iii) 一个众包的社区数据库,托管在Hugging Face上,目前涵盖22,235个模型、2,273个独特基准和31种评估格式。