[AI学术] 弹性查询强化学习：自适应策略执行的VLA模型新突破

在机器人操作中，视觉-语言-动作（VLA）模型作为强大的动作生成器，通常采用固定的推理和重规划调度。这种刚性方法忽视了机器人控制中的困难程度差异：接触丰富或不确定的状态可能需要更多的计算和更新反馈，而较简单的状态则可以通过较少的推理步骤和更长的开放环执行来处理。为此，我们提出了弹性查询强化学习（EQRL）框架，使每个VLA策略查询具有弹性。

EQRL通过一个轻量级的潜在调度适配器，联合选择潜在输入、去噪预算和动作块长度，而无需对基础VLA模型进行微调。为了使调度具备困难感知能力，EQRL训练一个批评者，基于联合潜在-调度动作推导出状态困难信号，该信号源于批评者集成的不一致性。这个信号引导计算资源集中于困难状态，同时学习的残差允许任务驱动的修正。

我们将可变块执行形式化为查询级宏动作强化学习，采用块依赖折扣和摊销的函数评估次数（NFE）预算。在模拟和真实机器人操作中，EQRL在降低摊销推理成本的同时，保持或提升了任务成功率。

博主点评： EQRL的提出解决了VLA模型在实际应用中的灵活性问题，通过动态调度和困难感知，显著提升了机器人操作的效率和成功率。这一方法不仅简化了模型的执行流程，还为未来的机器人智能决策提供了新的思路。其在复杂环境中的应用潜力值得关注。