[AI学术] 颠覆搜索的深度研究代理：迈向现实世界的长时域推理

在知识密集型任务中，深度研究代理通过长时域规划、证据收集、推理和报告生成来解决复杂问题。尽管近期搜索代理在信息检索和答案验证方面展现出强大的能力，但现有的大多数训练数据集仍然以搜索为中心，主要关注封闭式问题回答和信息定位。这导致它们主要训练信息寻求行为，而对深度研究能力的关键方面覆盖不足，包括证据整合、知识综合、规划、文件理解和结构化报告生成。

为此，我们提出了一种统一的轨迹构建范式，结合了封闭式问答和开放式探索。该框架包括图基础任务构造、代理轨迹展开和多维轨迹验证，使得能够可扩展地合成高质量的代理轨迹，涵盖长链复杂推理、深度研究指令遵循、报告撰写、文件理解与生成以及技能使用。

与现有的搜索导向数据集相比，我们合成的轨迹更加关注知识综合、复杂推理和规划。S1-DeepResearch-32B在20个基准测试中表现出色，跨越五个能力维度，包括复杂推理、指令遵循、报告生成、文件理解和技能使用，达到了与同规模开源模型相比的最先进性能。在若干具有挑战性的深度研究基准上，其性能接近领先的专有前沿模型。这些结果强调了共同建模信息获取、知识综合和面向规划的代理行为在构建有效深度研究代理中的重要性。

博主点评： 该研究提出了一种全新的深度研究代理模型，通过整合信息获取与知识综合，显著提升了推理及报告生成能力。这为未来的研究和应用提供了重要的理论基础，值得关注其在实际场景中的表现。