[AI学术] AI旅行代理人的动物福利挑战：首个代理基准测试

摘要

AI代理正在从顾问转变为行动者，替用户进行旅行预订、菜单规划和采购。现有的AI与动物福利基准测试评估模型对问答提示的文本响应，尚未解决在代理执行任务时，这些福利推理是否能够适用。我们引入了TAC (Travel Agent Compassion)，这是第一个代理基准，用于衡量AI代理在代表用户行动时是否避免涉及动物剥削的选项。

TAC为AI代理提供了十二个手工编写的旅行预订场景，涵盖六类动物剥削，样本总数扩展至四十八个，以控制价格、评分和位置的干扰因素。我们评估了来自四个实验室的七个前沿模型。每个模型的得分均低于六十四个百分点的机会水平，其中表现最佳的模型（Claude Opus 4.7）得分为五十三个百分点。

在系统提示中加入一个关注福利的句子，使Claude和GPT-5.5的得分提高了四十七到六十三个百分点，GPT-5.2提高了二十六个百分点，而DeepSeek和Gemini的提升不足十二个百分点。对288个基线条件转录本的辅助Inspect Scout审核，使用Gemini 2.5 Flash Lite作为评判，未标记出任何转录本具有评估意识，这表明低于机会水平的得分并非源于模型识别评估。

我们讨论了不同文化领域的类别级别变异的影响，文本响应福利基准的局限性，以及欧盟通用人工智能行为准则的系统性风险框架。

博主点评： 这项研究为AI代理的伦理决策提供了重要的基准，揭示了当前模型在处理动物福利问题上的不足。未来的AI系统需要更好地理解和执行道德标准，以有效避免动物剥削。