[AI学术] 信任合适的教师：面向GUI定位的质量感知自蒸馏

摘要

图形用户界面（GUI）定位要求视觉-语言模型（VLMs）在高分辨率截图中识别小目标元素并预测精确的屏幕坐标。在线自蒸馏（OPSD）作为一种有前景的后训练方法，能够为这一坐标敏感任务提供密集的标记级教师信号，超越硬坐标标签。然而，简单的OPSD并不适合GUI定位：因为它在学生生成的前缀上评估教师，当前缀已偏离目标坐标时，坐标-标记教师信号的质量会下降，导致不可靠的教师信号。为了缓解这一问题，我们提出了一种针对基于VLM的GUI定位的质量感知自蒸馏方法，通过软正确性感知门控和教师概率缩放提高坐标-标记教师信号的质量。

软正确性感知门控检查教师当前的坐标-标记预测是否仍能在学生生成的前缀下完成到真实框。如果不能，则相应的教师信号会被降低权重。教师概率缩放利用教师的信心作为轻量级因子，进一步校准门控监督的强度。一个重要的实证发现是，单独的任一组件并未提高整体性能，而是将它们结合在一起始终能提升性能。这表明这两个机制发挥了互补作用：正确性感知门控抑制了不可靠的坐标-标记监督，而教师概率缩放则校准了剩余信号的强度。实验结果表明，在六个GUI定位基准上，我们的方法始终提高了基础模型的表现，并超越了强基线。

博主点评： 本文提出的质量感知自蒸馏方法通过软门控和概率缩放有效提升了GUI定位任务的性能，展现了在复杂任务中教师信号质量的重要性。这种方法的创新之处在于结合了两个互补机制，值得在其他视觉-语言任务中进一步探索。