[AI学术] VISTA：为GUI定位提供视图一致的自验证训练框架

摘要

在应用群体相对策略优化（GRPO）于GUI定位时，通常只从单一截图视图中采样回合；这导致在困难实例上，组往往成为全部失败，或在简单实例上成为全部成功，无法提供有用的相对优势。

我们提出了VISTA（视图一致性自验证训练），这是一个基于GRPO的训练框架，其构建每个比较组时利用多个目标保持视图的同一GUI实例。每个视图通过裁剪保持目标元素可见，并准确重映射其边界框，从而在语义上等效但几何上不同的输入间进行模型回合比较。

为了在不将强化学习转变为无条件模仿的情况下稳定短坐标生成，VISTA进一步增加了一个自验证的跨视图锚点：一个经过优势加权损失优化的oracle答案，该答案排除在组基线之外，仅在模型产生最大奖励回合时激活。

在五个GUI定位基准测试和多个Qwen骨干网络上，VISTA始终提高了定位准确性。在ScreenSpot-Pro上，它将Qwen3-VL 4B/8B/30B-A3B的准确率从55.5/52.7/53.7提高到63.4/65.8/67.0。稳健性分析进一步显示出更高的最差视图准确性和更低的预测翻转率。

博主点评： VISTA通过引入多视图比较和自验证机制显著提升了GUI定位的准确性，展现了其在不同复杂度任务中的适应性与稳健性。这一框架在强化学习中的应用具有广泛的前景，值得深入探索。