摘要
随着基于大语言模型(LLM)的购物代理进入实际应用,现有的基准测试无法有效捕捉购物者需求的来源:可能隐含在查询中,记录在个人资料中,或仅在提出正确问题时才显现。现有基准提前暴露完整意图并仅对最终选择进行评分,既无法提出这种长时任务的挑战,也无法解释代理遗漏了哪些需求。
为了解决这一问题,我们引入了 EComAgentBench,这是一个基于真实亚马逊产品和评论的 662 个任务的基准测试。每个任务将需求分散在可见查询、工具限制的个人资料和脚本化的澄清中;代理必须揭示隐藏意图,验证候选产品与属性和评论证据的匹配,并在 100 次工具调用内做出最终选择。此外,类型化的、源标签化的评分标准对每个任务进行评分,将每个失败归因于特定需求及其来源。任务构建过程是自动化的,但可靠性高,每个答案在生成任何文本之前都已经固定在代码中,并且每个样本都经过验证。
我们对七个模型的评估显示,即使是最强的模型,其整体准确率也仅为 57.1%,且评分满意度从可见到隐藏源的过程中逐渐降低。总的来说,我们相信 EComAgentBench 将为将购物代理从单一查询搜索向长期可靠的辅助转变提供可重复的基础。
博主点评: EComAgentBench 的引入是对购物代理性能评估的一次重要进步,通过考虑隐藏意图和长时任务,能够更全面地衡量代理的实际能力。这一基准的设计不仅强调了需求获取的复杂性,也为未来的研究提供了可靠的基准框架。