[AI学术] Pix2Pix-Hybrid：基于结构引导的哈吉人群图像合成新突破

摘要

在哈吉朝圣场景中，开发准确的人群计数模型面临巨大挑战，因为特定领域的标注图像稀缺，且在大型集会期间的数据收集会引发隐私问题。为了解决这些限制，本文提出了Pix2Pix-Hybrid（P2P-H），一种用于结构引导的哈吉人群图像合成和数据增强的混合条件生成对抗网络（GAN）。

P2P-H基于Pix2Pix构建，采用U-Net生成器，条件输入由八个通道组成，联合编码结构线索（边缘和灰度）及上下文属性（人群密度和时间）。为了捕捉密集场景中的细节纹理，该框架集成了两个在不同分辨率下工作的多尺度PatchGAN判别器。训练过程结合了对抗性、感知和特征匹配目标，并使用自适应数据增强和稳定策略。

该模型在从60个公开视频源收集的993帧真实哈吉图像上进行了训练，条件属性自动推导以减少手动标注的工作量。通过该框架，我们构建了CrowdH，一个包含10,000张高分辨率哈吉人群图像的合成数据集。实验结果表明，与Pix2Pix和StyleGAN2-ADA基线相比，P2P-H改善了结构保持的条件合成质量，并在其他人群数据集上表现出良好的迁移能力。

为了评估下游应用，我们进一步构建了CrowdH-Mix-469，一个包含384张真实哈吉图像和85张选定合成图像的标注混合真实-合成数据集，并在真实和真实加合成训练下评估了五个人群计数模型。选定的合成数据在所有五个模型中都降低了平均绝对误差（MAE），其中CSRNet的增益最为显著。

博主点评： Pix2Pix-Hybrid通过引入结构引导和多通道条件输入，极大提升了哈吉人群图像合成的准确性和实用性，尤其在数据稀缺的情况下，展现了其在实际应用中的潜力。该模型不仅在合成图像质量上超越了传统方法，还为人群计数任务提供了有效的合成数据支持，具有广泛的应用前景。