摘要
AI代理正在从顾问转变为行动者,替用户进行旅行预订、菜单规划和采购。现有的AI与动物福利基准测试评估模型对问答提示的文本响应,尚未解决在代理执行任务时,这些福利推理是否能够适用。我们引入了TAC (Travel Agent Compassion),这是第一个代理基准,用于衡量AI代理在代表用户行动时是否避免涉及动物剥削的选项。
TAC为AI代理提供了十二个手工编写的旅行预订场景,涵盖六类动物剥削,样本总数扩展至四十八个,以控制价格、评分和位置的干扰因素。我们评估了来自四个实验室的七个前沿模型。每个模型的得分均低于六十四个百分点的机会水平,其中表现最佳的模型(Claude Opus 4.7)得分为五十三个百分点。
在系统提示中加入一个关注福利的句子,使Claude和GPT-5.5的得分提高了四十七到六十三个百分点,GPT-5.2提高了二十六个百分点,而DeepSeek和Gemini的提升不足十二个百分点。对288个基线条件转录本的辅助Inspect Scout审核,使用Gemini 2.5 Flash Lite作为评判,未标记出任何转录本具有评估意识,这表明低于机会水平的得分并非源于模型识别评估。
我们讨论了不同文化领域的类别级别变异的影响,文本响应福利基准的局限性,以及欧盟通用人工智能行为准则的系统性风险框架。
博主点评: 这项研究为AI代理的伦理决策提供了重要的基准,揭示了当前模型在处理动物福利问题上的不足。未来的AI系统需要更好地理解和执行道德标准,以有效避免动物剥削。