[AI学术] 革命性框架：RecourseBench 实现可重复的算法回溯评估

摘要

算法回溯方法提供反事实解释，告知个人如何采取行动以推翻不利的模型决策。尽管方法论快速进展，原则性的比较依然难以实现；现有框架往往难以扩展，缺乏互操作性及系统性验证，无法保证集成方法忠实再现其原始报告结果。我们介绍了 RecourseBench，一个围绕模块化、可重复性和交互性构建的统一评估框架。

框架结构

该框架将管道分解为五个完全解耦的层次：数据、预处理、模型、回溯方法和评估。每个层次由抽象接口和动态注册表管理。为了解决先前基准测试中的可重复性差距，我们引入了四级分类系统，所有集成方法都通过自动化测试套件验证其与原始报告结果的一致性。

交互界面

此外，我们提供了一个交互式Web界面，支持基于配置的灵活比较，涵盖不同的方法、数据集和模型架构。目前，我们的框架集成了28种最先进的回溯方法，且据我们所知，是首个通过自动化、定量测试明确强制方法级可重复性的回溯基准。

博主点评： RecourseBench 的设计理念突破了现有算法回溯方法的局限，通过模块化和自动化测试提升了可重复性，未来可能成为领域内的标准工具，推动更高质量的研究和应用。其交互式界面也为研究者提供了极大的便利，值得关注与使用。