[AI学术] X-Tokenizer：多模态行动标记器引领视觉-语言-行动预训练新纪元

摘要

现代视觉-语言-行动（VLA）模型必须在预训练的视觉-语言推理与精确的连续机器人控制之间架起桥梁。现有的行动标记器主要用于重建，产生的代码虽然保留了运动几何信息，但对主干网络的语义监督较弱。因此，我们将行动标记化的任务视为多模态推理与可执行控制之间的语义接口学习，而不仅仅是压缩。

为此，我们提出了 X-Tokenizer，这是一种轻量级的编码器-语义残差量化（SRQ）-解码器架构，提供了跨多种机器人臂的共享行动接口。其关键组件 SRQ 对残差向量量化施加了不对称结构：第一级通过掩蔽行动建模（MAM）进行训练，形成捕捉粗略运动意图的离散行动语言，而更深层则保持面向重建的残差，保留细粒度细节。

为了进一步使行动标记与多模态语义对齐，X-Tokenizer 通过对比对齐进行预训练，目标是对齐到预训练基础模型的表示空间，并进行下一帧视觉-语言特征预测。X-Tokenizer 在 240 万条轨迹（20 亿个行动帧）上进行预训练，可以作为混合离散-连续 VLA 的表示塑形监督信号。X-Tokenizer 在现实世界的整体表现和 RoboTwin 2.0 模拟中均取得了优异的结果。它在多模态基础上超越了 FAST，分别提升了 +13.5% 和 +8.25% 的长期任务效果，证明了行动标记器作为 VLA 预训练的语义接口，不仅仅是行动压缩的工具。

博主点评： X-Tokenizer 的设计理念突破了传统行动标记器的限制，通过引入语义残差量化和多模态对齐，显著提升了机器人控制的精度与灵活性。这一创新为未来的 VLA 模型提供了更强的语义理解能力，推动了机器人技术的进步。