摘要
深度研究(DR)系统在复杂的信息检索任务中被越来越多地使用,但现有研究主要集中在生成报告和摘要上。与此不同,许多企业任务需要代理人识别具体的工作流,即一系列的行动步骤。例如,代理人应该能够确定为回答“在固定预算下如何申请新员工?”这一问题所需的步骤,而不是仅仅总结预算政策。
因此,我们引入了DRFLOW,这是一个用于评估代理人从异构来源预测个性化工作流的基准。每个任务要求代理人从分散的来源中识别相关证据,然后利用这些证据预测用户任务的正确行动步骤序列。DRFLOW包含来自五个领域的100个任务,涉及1246个参考工作流步骤,基础于3900多个来源。
我们定义了七个诊断指标,涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。此外,我们还提出了DRFLOW-Agent (DRFA),这是一个以工作流为导向的参考代理,用于预测个性化工作流。我们展示了尽管DRFA在强基线代理上有了改进(平均F1分数提升至10.02%),但在这些工作流指标上仍有很大的改进空间,这表明预测完整且正确的个性化工作流仍然是深度研究的一个具有挑战性的前沿问题。
博主点评: DRFLOW的提出为个性化工作流的研究提供了新的视角,强调了从异构数据源中提取和整合信息的重要性。此基准的多样性和复杂性将推动相关领域的进一步探索,值得关注其未来的发展和改进。