[AI学术] 突破性安全强化学习：约束敏感策略优化方法

摘要

安全强化学习（Safe RL）旨在在满足安全约束的同时最大化期望收益，通常建模为约束马尔可夫决策过程（CMDPs）。虽然原始-对偶方法在深度强化学习中表现良好，但它们经常遭遇延迟约束修正的问题，导致振荡行为和延长的安全违规。

在本文中，我们提出了约束敏感策略优化（CSPO），这是一种将局部约束敏感性纳入策略更新的原始-对偶一阶方法。CSPO通过引入从安全边界到达的最短有符号距离导出的约束敏感修正，增强了原始目标，从而实现更智能的恢复步骤，补偿延迟的拉格朗日乘子更新，减少了边界附近的振荡，并保持了原始约束问题的KKT解。

在导航和运动基准上的实验表明，CSPO实现了更快的安全恢复和高奖励保留，导致比最先进的原始-对偶和惩罚方法更高的约束回报。

博主点评： CSPO方法通过引入约束敏感性，为安全强化学习带来了新思路，显著提高了在复杂环境中的安全性与效率，是未来研究的重要方向。