[AI学术] PreAct：让计算机代理在重复任务中加速的革命性方法

摘要

计算机使用代理通过屏幕驱动真实软件——点击和输入——但它们每次都从头开始解决任务：在重复任务时，代理重新读取屏幕，重新推理每一次点击，并再次付出全部成本。我们提出了 PreAct，它让这样的代理在完成过的任务上变得更快。第一次成功时，PreAct 将运行编译成一个小型状态机程序——状态检查屏幕，转移执行动作——在后续的运行中直接重放，而不是调用代理，速度提升 8.5-13 倍，且无需每一步的语言模型调用。

重放并不是盲目的：在每一步，PreAct 检查屏幕是否与程序预期匹配，然后再执行动作，并在出现偏差时立即将控制权交还给代理。PreAct 在决定保留哪些程序时也遵循相同的原则：只有在从干净状态重新运行时，独立评估者确认它成功解决任务，刚编译的程序才会进入存储——这可以捕捉到那些重放到最后一步却未能完成任务的程序。

在移动设备、桌面和网页基准测试中，该存储时检查将改善的重复运行与因故障程序积累而恶化的运行区分开，分别在三个基准中提升了 1.75-2.6 个任务；当没有合适的程序时，回退机制会重新探索，使 PreAct 的表现与强大的记录与重放基线相当。我们还报告了哪些因素并不重要：提示措辞、运行时保护措施，以及语言模型或普通嵌入检索器选择重用哪个程序。

博主点评： PreAct 通过将重复任务的处理效率提升至新高度，展示了计算机使用代理在优化执行流程中的巨大潜力。状态机的引入有效地提高了任务重放的速度与准确性，值得在实际应用中深入探索与实证验证。