[AI学术] MagicSim：统一的可执行体交互基础设施

摘要

机器人学习和具身代理现在需要模拟作为一个共享的执行基础设施，连接控制、技能和规划，而不仅仅是作为渲染器、控制器测试平台或固定任务环境。现有的流程将这些层次分割开来，使用“魔法”动作、断开的训练环境或仅向前渲染的方式，无法重现、评估和注释同一集。

我们提出了 MagicSim，这是一个围绕一个确定性批处理运行时和共享马尔可夫决策过程（MDP）构建的具身交互基础设施。从 YAML 优先的规范开始，MagicSim 解耦了内容、位置、行为和代理曝光，构建了多样化的可执行世界，涵盖任务系列、交互模式、物理、布局、传感器、化身和机器人体现，所有这些都在一个重置-步骤循环中实现。

一个通用的执行接口通过控制器、原子技能、规划原语和异步规划将高层命令落地，实现机器人动作而不是模拟器端状态编辑。一个任务定义支持三种能力：基准和强化学习评估、一个自动收集接口，自动将命令转换为有根据的轨迹，以及面向代理/VLM 的交互。

对于自动执行，命令通过命令-技能-规划-机器人-记录管道流动，而每个环境的命令、技能、规划、重试、注释和集状态在共享物理滴答上独立推进。成功的回放被保存为结构化的多模态轨迹，使语言监督、动作表示、视觉/几何表示和任务级状态与执行的集对齐。因此，MagicSim 将多样的世界构建、具身执行、任务评估、自动回放生成和交互代理接口统一在一个规划者循环运行时中。

博主点评： MagicSim 通过将多个复杂功能整合到一个统一的框架中，显著提升了机器人学习的效率。这种方法不仅简化了环境构建过程，还提供了强大的评估和交互能力，展示了未来机器人系统的潜力。其基于 YAML 的规范设计为灵活性与可扩展性提供了良好的基础。