[AI学术] 样本选择偏差如何导致模型崩溃

摘要

递归训练合成数据的普及可以缓解数据稀缺问题，但也存在模型崩溃的风险。在这种情况下，重复训练会侵蚀分布尾部并使输出同质化。数据选择被广泛认为是解决方案，但其可靠性在很大程度上依赖于验证者所使用的参考分布。

我们展示了在低资源验证环境中，验证者仅观察到目标流形的小而碎片化的偏见切片时，选择本身便变得有偏向。这种情况在低资源数据孤岛中自然发生，例如医疗联盟或专有金融机构，在这些环境中，原始数据无法集中，局部参考本质上是不完整的。

结果，选择优先保留与局部流形一致的样本，同时修剪全球相关的尾部模式，使其从防止崩溃的保护机制转变为加速崩溃的机制。

我们理论证明了这种孤立选择加速崩溃并引起幂律多样性衰减。作为初步缓解措施，我们构建了来自多个孤岛的Wasserstein代理参考，而无需共享原始数据。

实证结果确认，局部参考选择在偏斜分布上失败，而协作代理参考则减轻了多样性降解，这表明当真实数据覆盖面破碎或稀缺时，递归合成数据管道需要特别谨慎。

博主点评： 这篇论文深入探讨了在数据稀缺环境下，样本选择偏差如何反而加剧模型崩溃的问题。特别是在医疗和金融等领域，数据的孤岛效应使得模型训练面临更大的挑战，提出的Wasserstein代理参考方法为解决这一难题提供了新的思路。通过理论与实证结合，本文为后续研究指明了方向。