摘要
安全强化学习(Safe RL)旨在在满足安全约束的同时最大化期望收益,通常建模为约束马尔可夫决策过程(CMDPs)。虽然原始-对偶方法在深度强化学习中表现良好,但它们经常遭遇延迟约束修正的问题,导致振荡行为和延长的安全违规。
在本文中,我们提出了约束敏感策略优化(CSPO),这是一种将局部约束敏感性纳入策略更新的原始-对偶一阶方法。CSPO通过引入从安全边界到达的最短有符号距离导出的约束敏感修正,增强了原始目标,从而实现更智能的恢复步骤,补偿延迟的拉格朗日乘子更新,减少了边界附近的振荡,并保持了原始约束问题的KKT解。
在导航和运动基准上的实验表明,CSPO实现了更快的安全恢复和高奖励保留,导致比最先进的原始-对偶和惩罚方法更高的约束回报。
博主点评: CSPO方法通过引入约束敏感性,为安全强化学习带来了新思路,显著提高了在复杂环境中的安全性与效率,是未来研究的重要方向。