摘要
网页导航要求代理遵循自然语言目标,与网页进行交互并提供准确答案。尽管最近在视觉-语言模型和强化学习方面取得了进展,现有方法仍然由于奖励不对齐和错误传播而面临单步脆弱性的问题。为了解决奖励纠缠问题,我们设计了动态双策略优化(DDPO),该策略在导航优先模式和答案优先模式之间动态切换,以减轻奖励冲突。
为了校准单步错误,我们提出了基于信心的自适应导航反思(CANR)机制,该机制估计每一步的信心,仅在必要时触发反思,并使用对比奖励来鼓励自我修正,从而校准单步不准确性。通过以上主要组件,我们最终开发了StepGuard,一个新的框架,用于通过单步校准来守护网页导航。实验表明,我们的方法显著提高了导航和答案的准确性,在标准网页导航基准上设定了新的最先进性能。
博主点评: StepGuard通过动态双策略优化和自适应反思机制有效解决了网页导航中的单步错误问题,展示了在复杂环境中提升代理智能的潜力,为未来的研究提供了新的思路和方法。其在标准基准上的表现也表明了该框架的有效性,值得关注。