[AI学术] AgentFairBench：大型语言模型代理的公平性考量

摘要

大型语言模型（LLM）代理在执行多种任务（如筛选申请人、推荐信贷、医疗分诊）时，公平性问题日益受到关注，然而，目前对LLM的公平性评估仍主要依赖于对答案的评分。为此，我们提出了AgentFairBench，这是一个经济高效、可重复的多领域基准，用于评估LLM代理在行为上的人口统计差异。

AgentFairBench建立在一个名为偏见传导框架（BCF）的伴随框架基础上，涵盖了三个监管领域：招聘、信贷和医疗分诊。我们使用合成的人口统计中立性档案，在仅通过名称编码的种族和性别信号（遵循Bertrand和Mullainathan的传统）变化的对照匹配集中进行评估，采用四种不同的代理架构（直接、链式思维、多代理审议、工具增强），以逐步增加代理的自主性。

我们使用仅包含NumPy的工具计算反事实翻转率、均值绝对得分差（MASD）、行为率差异和工具调用差异，并提供自助置信区间、配对测试和假发现率控制，成本仅为每个模型的单数美元。一个实时排行榜带有保留的私有数据分割和污染信号，允许外部模型提交。

在我们的初步实验中（864个决策及其测试重测复制），得到一个方法论教训：将六组分数差异与两次噪声差异进行比较，可能会因统计特性而夸大差异约2.4倍。在与匹配噪声基准和总体组测试相对比时，claude haiku 4 5显示没有超过采样噪声的人口统计效应（120对比中的0个和9个总体对比中的0个在校正后存活）；一个植入偏见测试确认该工具能在存在差异时有效检测。我们的贡献在于提供一个可靠、敏感、可立即采纳的工具，配合匹配的无效方法以及可扩展的开放文档。代码、数据和工具均以开放许可证发布，并提供匿名审查文档。

博主点评： AgentFairBench为LLM的公平性评估提供了新的视角，尤其是在多领域应用中。该基准的可重复性和经济性使其成为研究人员的重要工具，尤其是在当前对算法公平性关注日益增强的背景下。通过对不同代理架构的比较，研究者可以更深入地理解模型在实际应用中的表现与偏见。