在实际文档处理场景中,数据集通常会随着时间的推移而增长,并且它们的类别注释会不断被修订。这导致了大量的重新标注工作,既耗时又昂贵。
一个有前景的解决方案是仅手动重新标注一小部分可用文档,并应用半监督学习技术来利用标注和未标注的数据。虽然有许多方法可以解决分类问题,但目前尚无针对文档布局分析中对象检测实例重新分类的适应方案。
为此,我们提出了边界框标签传播(Bounding Box Label Propagation,BBLP),这是一种用于对象检测的伪标签框架。该框架通过对象编码器整合来自对象检测样本的视觉、文本和位置嵌入,生成一个联合嵌入,用于对部分标注数据集进行标签传播,具有即插即用的特点。
评估结果表明,所提出的方法能够生成高质量的边界框类别注释。在D4LA布局分析数据集中,BBLP达到了54.0%的mAP,相当于完全监督性能的81.6%,而仅使用了10%的标注数据。我们的工作展示了标签传播在对象检测中的潜力,为减少现实世界文档处理应用中的人工标注工作奠定了基础。
博主点评: 本文提出的BBLP方法通过结合多种信息源有效提升了对象检测的标注准确性,尤其在标注资源有限的情况下展现了其优势。未来的研究可以进一步探索如何优化伪标签生成的策略,以提高模型的鲁棒性和精度。