我们介绍了 COMET(因果对象中心模型),这是一种基于模型的强化学习算法,能够在槽结构的潜在空间中执行蒙特卡洛树搜索。COMET 将一个冻结的无监督对象中心编码器与基于变换器的世界模型相结合,利用一种新颖的动作-槽融合机制将动作与对象绑定,用于槽过渡预测。
策略和价值头使用对象因果注意力,通过学习到的每槽相关性分数调节令牌之间的交互,从而使决策集中于与任务相关的实体。COMET 为 MuZero 风格的潜在规划添加了显式的对象级归纳偏置。
在来自对象中心视觉强化学习基准的八个视觉和动态多样性任务中,COMET 在训练的早期阶段相比于对象中心和单块基线达到了更高的均值归一化评分。
博主点评: COMET 通过结合因果对象中心模型与变换器架构,显著提升了强化学习中的规划效率,其创新的动作-槽融合机制为决策过程注入了更高的灵活性和针对性,未来在复杂任务中的应用前景值得期待。