NeFut Logo NeFut
EN 管理员登录

[AI学术] 软件委托合同:评估AI编码代理工作的可审查性

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#algorithm #AI #Open Source

在软件开发中,AI编码代理越来越多地接受分配的任务,基于有限的权限修改代码库,并返回工作包供审查。之前的研究提出了软件委托合同,涵盖任务、权限、返回的工作包和接受背景,作为委托编码工作的分析单位,但未对其效果进行测量。本研究报告了一项针对编码代理的显式委托合同的受控试点研究。

我们构建了一个无依赖的TypeScript API任务环境,其中包含预设缺陷和文档缺口,设计了五个类别的十个任务,并在三种条件下运行了64次代理执行:现实问题风格提示、显式委托合同,以及包含必要证据包的合同。每次运行都通过隐藏的接受测试、变异检查和范围分析进行评分,然后由三位独立的条件盲审评者使用固定标准进行审查,共进行了192次评审。

结果表明,显式合同未能改善客观任务结果:所有64次运行均通过了隐藏的接受检查,且没有范围违规。然而,它们确实提高了可审查性。在30个成对比较中,证据充分性在22次比较中有所改善,且没有出现恶化(+0.83,满分5分,p < 0.01)。

博主点评: 本研究表明,尽管显式委托合同未能提升任务的客观完成效果,但却显著提高了审查的有效性,强调了在AI编码代理的使用中,审查机制的重要性与必要性。

原文链接: https://arxiv.org/abs/2606.17099

[h] 返回首页