NeFut Logo NeFut
EN 管理员登录

[AI学术] 密集坐标列表微调:在视觉-语言模型中引入可控干扰面

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:13
#AI #Machine Learning #DeepSeek

摘要

微调视觉-语言模型以输出密集坐标列表可以改善视觉定位,但同时也改变了模型序列化、重复和终止结构化输出的方式。我们研究这种行为作为生成和控制的表面。

在 Gemma 4 12B 中,高容量的 q/k/v/o LoRA 将类感知 F1@0.3 从 0.007 提高至 0.448,同时引入重复尾压(重复率 0.080,最大重复 23)。对 q/v 的秩扫描保持最大重复在 21-22 之间,显示出容量的持久性。目标信号是可分离的:对象级的重复停止去除确切的重复记录(重复率 0.000,最大重复 1),同时保留 F1(0.494 到 0.490)和更严格的 F1@0.5(0.381 到 0.385)。

结构轴探测器将效果定位于 bbox 坐标对象列表;密集的非 bbox 和空间/计数 JSON 在高容量适配器下仍保持无重复,包括在高容量适配器下。Qwen3-VL-8B 复制了一个干净的控制终点(F1@0.3 0.318,重复率 0.000),而 COCO 2017 复制了获取加上重复压力。因此,密集坐标列表适配创建了一个结构绑定的跨家族干扰面,可以被测量和控制。

博主点评: 本文深入探讨了如何通过密集坐标列表微调来改善视觉-语言模型的输出质量,尤其是在控制重复性方面的具体方法和效果,展示了模型在处理复杂结构时的灵活性与可控性,具有重要的实用价值和研究意义。

原文链接: https://arxiv.org/abs/2606.14507

[h] 返回首页