NeFut Logo NeFut
EN 管理员登录

[AI学术] 样本选择偏差如何导致模型崩溃

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:15
#algorithm #Machine Learning #optimization

摘要

递归训练合成数据的普及可以缓解数据稀缺问题,但也存在模型崩溃的风险。在这种情况下,重复训练会侵蚀分布尾部并使输出同质化。数据选择被广泛认为是解决方案,但其可靠性在很大程度上依赖于验证者所使用的参考分布。

我们展示了在低资源验证环境中,验证者仅观察到目标流形的小而碎片化的偏见切片时,选择本身便变得有偏向。这种情况在低资源数据孤岛中自然发生,例如医疗联盟或专有金融机构,在这些环境中,原始数据无法集中,局部参考本质上是不完整的。

结果,选择优先保留与局部流形一致的样本,同时修剪全球相关的尾部模式,使其从防止崩溃的保护机制转变为加速崩溃的机制。

我们理论证明了这种孤立选择加速崩溃并引起幂律多样性衰减。作为初步缓解措施,我们构建了来自多个孤岛的Wasserstein代理参考,而无需共享原始数据。

实证结果确认,局部参考选择在偏斜分布上失败,而协作代理参考则减轻了多样性降解,这表明当真实数据覆盖面破碎或稀缺时,递归合成数据管道需要特别谨慎。

博主点评: 这篇论文深入探讨了在数据稀缺环境下,样本选择偏差如何反而加剧模型崩溃的问题。特别是在医疗和金融等领域,数据的孤岛效应使得模型训练面临更大的挑战,提出的Wasserstein代理参考方法为解决这一难题提供了新的思路。通过理论与实证结合,本文为后续研究指明了方向。

原文链接: https://arxiv.org/abs/2606.13732

[h] 返回首页