摘要
在2024年3月,WorkBench上表现最佳的智能代理GPT-4完成了43%的任务,并在26%的任务中采取了意外的有害行动,例如发送错误的邮件。我们在2026年6月重新审视这一基准,发现迄今为止表现最佳的代理Claude Opus 4.8完成了89%的任务,且仅在2.5%的任务中出现意外有害行动。
关键发现
- 能力与安全性:在WorkBench上,能力与安全性是相辅相成的,而不是相互妥协的。因此,完成最多任务的模型通常也是造成最少意外损害的模型。
- 错误类型的消除:尽管一些错误类型已被完全消除,但前沿模型仍会犯一些基础错误,这些错误偶尔会导致不可逆的伤害,例如错误发送邮件。
- 开放权重模型的崛起:开放权重模型的兴起显著降低了之前仅限于专有模型的性能水平的成本,而前沿模型的成本保持相对稳定。
我们发布了更新版基准,包含数据和代码质量的改进、新模型评分以及自2024年以来代理在WorkBench上进展的分析。
博主点评: 本文展示了智能代理领域的重大进展,特别是在能力与安全性的结合上。尽管错误依然存在,但技术的演进显然正在改变工作场所的智能化面貌。未来的研究应继续关注如何进一步减少错误的发生,并提升用户的信任度。