NeFut Logo NeFut
EN 管理员登录

[AI学术] AgentFairBench:大型语言模型代理的公平性考量

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#AI #Machine Learning #Open Source

摘要

大型语言模型(LLM)代理在执行多种任务(如筛选申请人、推荐信贷、医疗分诊)时,公平性问题日益受到关注,然而,目前对LLM的公平性评估仍主要依赖于对答案的评分。为此,我们提出了AgentFairBench,这是一个经济高效、可重复的多领域基准,用于评估LLM代理在行为上的人口统计差异。

AgentFairBench建立在一个名为偏见传导框架(BCF)的伴随框架基础上,涵盖了三个监管领域:招聘、信贷和医疗分诊。我们使用合成的人口统计中立性档案,在仅通过名称编码的种族和性别信号(遵循Bertrand和Mullainathan的传统)变化的对照匹配集中进行评估,采用四种不同的代理架构(直接、链式思维、多代理审议、工具增强),以逐步增加代理的自主性。

我们使用仅包含NumPy的工具计算反事实翻转率、均值绝对得分差(MASD)、行为率差异和工具调用差异,并提供自助置信区间、配对测试和假发现率控制,成本仅为每个模型的单数美元。一个实时排行榜带有保留的私有数据分割和污染信号,允许外部模型提交。

在我们的初步实验中(864个决策及其测试重测复制),得到一个方法论教训:将六组分数差异与两次噪声差异进行比较,可能会因统计特性而夸大差异约2.4倍。在与匹配噪声基准和总体组测试相对比时,claude haiku 4 5显示没有超过采样噪声的人口统计效应(120对比中的0个和9个总体对比中的0个在校正后存活);一个植入偏见测试确认该工具能在存在差异时有效检测。我们的贡献在于提供一个可靠、敏感、可立即采纳的工具,配合匹配的无效方法以及可扩展的开放文档。代码、数据和工具均以开放许可证发布,并提供匿名审查文档。

博主点评: AgentFairBench为LLM的公平性评估提供了新的视角,尤其是在多领域应用中。该基准的可重复性和经济性使其成为研究人员的重要工具,尤其是在当前对算法公平性关注日益增强的背景下。通过对不同代理架构的比较,研究者可以更深入地理解模型在实际应用中的表现与偏见。

原文链接: https://arxiv.org/abs/2606.16723

[h] 返回首页