[AI学术] 安全合同图的多智能体强化学习：自主网络安全响应的新纪元

摘要

自主网络安全响应系统有望减少安全运营中心（SOC）的反应延迟，但仅依赖奖励的多智能体强化学习（MARL）虽能提升安全奖励，却无法实际部署。我们提出了一种安全合同图 MARL 框架，并将其实例化为 ACD$^3$-GAT（自适应约束反事实决策与图注意力网络编码器），该架构将模拟器观察与可重用的操作预算、约束优化、图状态编码和反事实动作筛选分开。

我们在 CAGE Challenge 4 中评估了该方法，代理在平均恢复时间（MTTR）、误报响应和防火墙变更管理干扰的预算下运行。基准测试显示，每种不受约束的方法在100%的评估回合中违反了SOC停机预算，平均停机代理成本为311-430，而预算为50。这与之前的 CAGE Challenge 4 结果相辅相成，表明仅依赖奖励的学习缺乏操作纪律。

约束 MAPPO-GAT（C-MAPPO-GAT）隔离了拉格朗日操作成本控制和预算感知筛选，而 ACD$^3$-GAT 则增加了预算上下文、CVaR尾部风险估计、对手信念状态和图反事实风险传播（G-CRP）。复制的比较包括对 IPPO、MAPPO-GAT、C-MAPPO-GAT 和 ACD$^3$-GAT 的三个 200 回合种子实验。C-MAPPO-GAT 将停机违规率从100%降低到0.3%，并将平均停机成本从355.4降低到15.5，相较于 MAPPO-GAT。ACD$^3$-GAT 将平均停机成本降低至48.2，违规率为13.8%，使其处于安全合同边界而非最保守的合规点。拓扑种子和耦合自适应红色过程压力测试保持了这种对比，显示安全约束政策的最坏自适应退化低于仅依赖奖励的 MAPPO-GAT。

博主点评： 本文提出的安全合同图框架在多智能体强化学习中引入了新的约束机制，显著提升了网络安全响应的效率与有效性。通过与传统方法的对比，展示了在实际应用中将奖励与约束相结合的重要性，具有广泛的应用前景。