NeFut Logo NeFut
EN 管理员登录

[AI学术] 信任合适的教师:面向GUI定位的质量感知自蒸馏

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#AI #Machine Learning #Open Source

摘要

图形用户界面(GUI)定位要求视觉-语言模型(VLMs)在高分辨率截图中识别小目标元素并预测精确的屏幕坐标。在线自蒸馏(OPSD)作为一种有前景的后训练方法,能够为这一坐标敏感任务提供密集的标记级教师信号,超越硬坐标标签。然而,简单的OPSD并不适合GUI定位:因为它在学生生成的前缀上评估教师,当前缀已偏离目标坐标时,坐标-标记教师信号的质量会下降,导致不可靠的教师信号。为了缓解这一问题,我们提出了一种针对基于VLM的GUI定位的质量感知自蒸馏方法,通过软正确性感知门控和教师概率缩放提高坐标-标记教师信号的质量。

软正确性感知门控检查教师当前的坐标-标记预测是否仍能在学生生成的前缀下完成到真实框。如果不能,则相应的教师信号会被降低权重。教师概率缩放利用教师的信心作为轻量级因子,进一步校准门控监督的强度。一个重要的实证发现是,单独的任一组件并未提高整体性能,而是将它们结合在一起始终能提升性能。这表明这两个机制发挥了互补作用:正确性感知门控抑制了不可靠的坐标-标记监督,而教师概率缩放则校准了剩余信号的强度。实验结果表明,在六个GUI定位基准上,我们的方法始终提高了基础模型的表现,并超越了强基线。

博主点评: 本文提出的质量感知自蒸馏方法通过软门控和概率缩放有效提升了GUI定位任务的性能,展现了在复杂任务中教师信号质量的重要性。这种方法的创新之处在于结合了两个互补机制,值得在其他视觉-语言任务中进一步探索。

原文链接: https://arxiv.org/abs/2606.18101

[h] 返回首页