摘要
世界模型合成旨在将交互经验转化为环境动态的内部模型。现有的符号方法通常拟合观察到的状态转移或局部规则的混合,但并未生成可以独立于真实环境运行的完整可执行程序。我们介绍了 Mind-Studio,一个从状态-动作-下一个状态轨迹中合成可执行的 pygame 风格世界模型的框架,利用了大型语言模型。
Mind-Studio 将熵选择的轨迹与包含对象、动作和从截图提取的静态场景信息的轻量级游戏技能文件结合起来。我们使用 K 步前瞻保真度协议评估合成质量,该协议将生成的世界模型展开与来自相同状态的 Real-ALE 展开进行比较。在《蒙特祖马的复仇》游戏中,Mind-Studio 将选定动作的下一个状态预测从 PoE-World 的 0.3% 提高到 48.7%,并验证了 8 个子目标中的 5 个;在《外星人》、《攻击》和《滑雪》等游戏中,它实现了比之前学习的前瞻源更强的分支级别保真度。
博主点评: Mind-Studio 的创新在于结合了大型语言模型与游戏动态的合成能力,显著提升了部分可观察游戏的行为预测准确性。这一框架的应用潜力巨大,尤其是在复杂环境下的智能体训练和测试中,值得关注和深入研究。其对游戏设计和AI模型开发的影响,可能会引领新一轮的技术革新。