[AI学术] 密集坐标列表微调：在视觉-语言模型中引入可控干扰面

摘要

微调视觉-语言模型以输出密集坐标列表可以改善视觉定位，但同时也改变了模型序列化、重复和终止结构化输出的方式。我们研究这种行为作为生成和控制的表面。

在 Gemma 4 12B 中，高容量的 q/k/v/o LoRA 将类感知 F1@0.3 从 0.007 提高至 0.448，同时引入重复尾压（重复率 0.080，最大重复 23）。对 q/v 的秩扫描保持最大重复在 21-22 之间，显示出容量的持久性。目标信号是可分离的：对象级的重复停止去除确切的重复记录（重复率 0.000，最大重复 1），同时保留 F1（0.494 到 0.490）和更严格的 F1@0.5（0.381 到 0.385）。

结构轴探测器将效果定位于 bbox 坐标对象列表；密集的非 bbox 和空间/计数 JSON 在高容量适配器下仍保持无重复，包括在高容量适配器下。Qwen3-VL-8B 复制了一个干净的控制终点（F1@0.3 0.318，重复率 0.000），而 COCO 2017 复制了获取加上重复压力。因此，密集坐标列表适配创建了一个结构绑定的跨家族干扰面，可以被测量和控制。

博主点评： 本文深入探讨了如何通过密集坐标列表微调来改善视觉-语言模型的输出质量，尤其是在控制重复性方面的具体方法和效果，展示了模型在处理复杂结构时的灵活性与可控性，具有重要的实用价值和研究意义。