NeFut Logo NeFut
EN 管理员登录

[AI学术] 突破性安全强化学习:约束敏感策略优化方法

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:14
#AI #Machine Learning #optimization

摘要

安全强化学习(Safe RL)旨在在满足安全约束的同时最大化期望收益,通常建模为约束马尔可夫决策过程(CMDPs)。虽然原始-对偶方法在深度强化学习中表现良好,但它们经常遭遇延迟约束修正的问题,导致振荡行为和延长的安全违规。

在本文中,我们提出了约束敏感策略优化(CSPO),这是一种将局部约束敏感性纳入策略更新的原始-对偶一阶方法。CSPO通过引入从安全边界到达的最短有符号距离导出的约束敏感修正,增强了原始目标,从而实现更智能的恢复步骤,补偿延迟的拉格朗日乘子更新,减少了边界附近的振荡,并保持了原始约束问题的KKT解。

在导航和运动基准上的实验表明,CSPO实现了更快的安全恢复和高奖励保留,导致比最先进的原始-对偶和惩罚方法更高的约束回报。

博主点评: CSPO方法通过引入约束敏感性,为安全强化学习带来了新思路,显著提高了在复杂环境中的安全性与效率,是未来研究的重要方向。

原文链接: https://arxiv.org/abs/2606.14415

[h] 返回首页