摘要
强化学习(RL)策略在未知环境中常常表现不佳,原因在于缺乏明确的深思熟虑过程。为此,我们提出了计划、对齐、承诺、思考(PACT)这一混合架构,它结合了快速的反应式RL策略与缓慢的深思熟虑小型语言模型(SLM)规划器。
PACT 异步调用SLM来生成和验证候选行动计划。一旦通过仿真验证计划是安全、可行和完整的,它将直接执行,绕过RL策略,而无需重新训练或修改。
在三个难度逐渐增加的FrozenLake配置上进行评估时,PACT超越了所有基线,表明深思熟虑的规划与反应式执行在这些设置中结合起来的效果远超单独使用任一方法。
博主点评: PACT架构通过有效结合小型语言模型与强化学习,展示了在复杂环境下的适应性和灵活性,开辟了新的研究方向,值得深入探讨其在其他领域的应用潜力。