[AI学术] 混合开放式三重进化框架助力深度研究者突破极限

在朝向人工通用智能的进程中，深度研究与代理进化成为 AI 代理在现实应用中的关键任务。深度研究使得代理能够在开放式环境中自主检索和整合信息，以应对开放式研究任务，但其静态参数的研究能力限制了其效率。

另一方面，代理进化允许代理自主与环境互动，从而获取经验并提升模型能力。然而，这种方法的有效性主要在可验证任务上得到验证，而与开放式研究任务之间存在差距。

为了解决这一问题，我们提出了混合开放式三重进化（HOTE）框架，该框架利用混合模式强化学习促进提案者、解决者和评判者的协同进化，基于网络规模知识，朝着开放式任务和环境中的自主进化代理迈进。

通过在三个长篇深度研究基准上的广泛实验，我们发现通过 HOTE 训练的 8B 模型在性能上超越了强大的静态开源 8-32B 模型，以及那些使用最先进的深度研究训练方法训练的模型，且时间开销更小。此外，实验进一步验证了 HOTE 中三模块的进化是不可或缺的。

博主点评： HOTE 框架通过结合深度研究和代理进化，为开放式任务提供了新的解决方案，展现了在复杂环境中实现自主学习的巨大潜力。这一创新方法不仅优化了模型性能，还推动了 AI 领域向更高水平的发展。