[AI学术] 高效文档布局分析数据集再标注的边界框标签传播法

在实际文档处理场景中，数据集通常会随着时间的推移而增长，并且它们的类别注释会不断被修订。这导致了大量的重新标注工作，既耗时又昂贵。

一个有前景的解决方案是仅手动重新标注一小部分可用文档，并应用半监督学习技术来利用标注和未标注的数据。虽然有许多方法可以解决分类问题，但目前尚无针对文档布局分析中对象检测实例重新分类的适应方案。

为此，我们提出了边界框标签传播（Bounding Box Label Propagation，BBLP），这是一种用于对象检测的伪标签框架。该框架通过对象编码器整合来自对象检测样本的视觉、文本和位置嵌入，生成一个联合嵌入，用于对部分标注数据集进行标签传播，具有即插即用的特点。

评估结果表明，所提出的方法能够生成高质量的边界框类别注释。在D4LA布局分析数据集中，BBLP达到了54.0%的mAP，相当于完全监督性能的81.6%，而仅使用了10%的标注数据。我们的工作展示了标签传播在对象检测中的潜力，为减少现实世界文档处理应用中的人工标注工作奠定了基础。

博主点评： 本文提出的BBLP方法通过结合多种信息源有效提升了对象检测的标注准确性，尤其在标注资源有限的情况下展现了其优势。未来的研究可以进一步探索如何优化伪标签生成的策略，以提高模型的鲁棒性和精度。