摘要
随着智能体在自主工程师领域展现出潜力,对能够捕捉真实开发复杂性的评估基准的需求日益增长。现有基准通常单独评估代码或数据能力,未能反映真实开发场景的复杂性。
本文提出了CODA-BENCH,这是首个在数据密集型环境中联合评估代码和数据智能的基准。我们基于Kaggle生态构建了一个数据密集型的Linux沙箱,包含数百个数据集,智能体需主动探索复杂的文件层次结构,以识别相关资源并为数据驱动的分析任务生成代码。
CODA-BENCH包括1,009个任务,跨越31个社区,每个任务环境平均包含980个文件,模拟现实的数据规模和噪声。
对先进智能体的评估显示,即使是表现最好的系统,在数据发现与代码执行的有效整合上也面临挑战,成功率仅为61.1%。这些结果突显了当前智能体在数据密集型任务中的重大能力缺口,并指向未来研究的有希望方向。
博主点评: CODA-BENCH的提出反映了当前智能体在复杂数据环境下的评估需求,展示了代码与数据智能结合的挑战。未来的研究应聚焦于如何提升智能体在实际开发中对数据的处理能力,以满足日益增长的需求。