在本研究中,我们提出了一种新的离线强化学习(RL)算法——颠覆性Q学习(Reversal Q-Learning, RQL),该算法基于先前的数据训练流策略。我们的思路源自“扩展”的马尔可夫决策过程(MDP)框架,将每个流的细化步骤视为MDP中的独立动作。
为了在该框架内启用离线强化学习,我们应用了两项技术:首先,通过“反转”流生成虚拟的在线轨迹,使该框架与先前数据兼容;其次,采用偏差-方差减少技术以减轻离线强化学习中的地平线诅咒。
相较于之前的基于流的方法,RQL具有多个优势:不受时间反向传播的影响,更好地利用已学得的价值函数,并直接训练完整的、具有表现力的流策略。
在对50个具有挑战性的模拟机器人任务进行的实验中,我们展示了RQL在离线强化学习的平均性能上优于现有的基于流的离线RL算法。
博主点评: 颠覆性Q学习通过引入创新的流反转技术,显著提升了离线强化学习的效率和效果。该算法不仅解决了传统方法中的一些痛点,还通过实验验证了其在复杂任务中的优越性,展现了未来RL研究的潜力。