[AI学术] 软件委托合同：评估AI编码代理工作的可审查性

在软件开发中，AI编码代理越来越多地接受分配的任务，基于有限的权限修改代码库，并返回工作包供审查。之前的研究提出了软件委托合同，涵盖任务、权限、返回的工作包和接受背景，作为委托编码工作的分析单位，但未对其效果进行测量。本研究报告了一项针对编码代理的显式委托合同的受控试点研究。

我们构建了一个无依赖的TypeScript API任务环境，其中包含预设缺陷和文档缺口，设计了五个类别的十个任务，并在三种条件下运行了64次代理执行：现实问题风格提示、显式委托合同，以及包含必要证据包的合同。每次运行都通过隐藏的接受测试、变异检查和范围分析进行评分，然后由三位独立的条件盲审评者使用固定标准进行审查，共进行了192次评审。

结果表明，显式合同未能改善客观任务结果：所有64次运行均通过了隐藏的接受检查，且没有范围违规。然而，它们确实提高了可审查性。在30个成对比较中，证据充分性在22次比较中有所改善，且没有出现恶化(+0.83，满分5分，p < 0.01)。

博主点评： 本研究表明，尽管显式委托合同未能提升任务的客观完成效果，但却显著提高了审查的有效性，强调了在AI编码代理的使用中，审查机制的重要性与必要性。