NeFut Logo NeFut
EN 管理员登录

[AI学术] 混合开放式三重进化框架助力深度研究者突破极限

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:15
#AI #Machine Learning #DeepSeek

在朝向人工通用智能的进程中,深度研究与代理进化成为 AI 代理在现实应用中的关键任务。深度研究使得代理能够在开放式环境中自主检索和整合信息,以应对开放式研究任务,但其静态参数的研究能力限制了其效率。

另一方面,代理进化允许代理自主与环境互动,从而获取经验并提升模型能力。然而,这种方法的有效性主要在可验证任务上得到验证,而与开放式研究任务之间存在差距。

为了解决这一问题,我们提出了混合开放式三重进化(HOTE)框架,该框架利用混合模式强化学习促进提案者、解决者和评判者的协同进化,基于网络规模知识,朝着开放式任务和环境中的自主进化代理迈进。

通过在三个长篇深度研究基准上的广泛实验,我们发现通过 HOTE 训练的 8B 模型在性能上超越了强大的静态开源 8-32B 模型,以及那些使用最先进的深度研究训练方法训练的模型,且时间开销更小。此外,实验进一步验证了 HOTE 中三模块的进化是不可或缺的。

博主点评: HOTE 框架通过结合深度研究和代理进化,为开放式任务提供了新的解决方案,展现了在复杂环境中实现自主学习的巨大潜力。这一创新方法不仅优化了模型性能,还推动了 AI 领域向更高水平的发展。

原文链接: https://arxiv.org/abs/2606.13710

[h] 返回首页