[AI学术] 颠覆性Q学习：重塑离线强化学习的未来

在本研究中，我们提出了一种新的离线强化学习（RL）算法——颠覆性Q学习（Reversal Q-Learning, RQL），该算法基于先前的数据训练流策略。我们的思路源自“扩展”的马尔可夫决策过程（MDP）框架，将每个流的细化步骤视为MDP中的独立动作。

为了在该框架内启用离线强化学习，我们应用了两项技术：首先，通过“反转”流生成虚拟的在线轨迹，使该框架与先前数据兼容；其次，采用偏差-方差减少技术以减轻离线强化学习中的地平线诅咒。

相较于之前的基于流的方法，RQL具有多个优势：不受时间反向传播的影响，更好地利用已学得的价值函数，并直接训练完整的、具有表现力的流策略。

在对50个具有挑战性的模拟机器人任务进行的实验中，我们展示了RQL在离线强化学习的平均性能上优于现有的基于流的离线RL算法。

博主点评： 颠覆性Q学习通过引入创新的流反转技术，显著提升了离线强化学习的效率和效果。该算法不仅解决了传统方法中的一些痛点，还通过实验验证了其在复杂任务中的优越性，展现了未来RL研究的潜力。