[AI学术] 无监督检索中的时间偏好优化：TPOUR的突破

摘要

无监督密集检索器通过对未标记文档进行对比学习来学习语义相似性，从而实现可扩展性，但它们在捕获时间相关性方面表现不佳，容易检索到语义相关但时间上不一致的文档。当文档集合跨越多个时间段时（例如，检索2018-2025年的文档以回答“2019年的总统是谁？”时，会引入时间模糊性）。现有方法依赖于带有显式时间戳的监督训练，但这并不总是可行。

我们提出了TPOUR（无监督检索器的时间偏好优化），它使用我们新颖的训练方法——时间检索偏好优化（TRPO）。TRPO在时间维度上重新解释了偏好学习，指导检索器优先选择时间上对齐的文档。TPOUR进一步通过在学习的时间嵌入中进行插值，能够推广至未见的时间段，实现连续的时间对齐。

在时间信息检索（T-IR）实验中，TPOUR在性能上超越了无监督和监督基线。与Qwen-Embedding-8B相比，尽管TPOUR Contriever的规模约小72.7倍，但在显式查询上平均提高了nDCG@5 +4.04（+12.15%），在隐式查询上提高了+4.98（+15.21%）。我们的代码已在 GitHub 上提供。

博主点评： TPOUR通过引入时间偏好优化，为无监督检索领域带来了新的思路，有效解决了时间相关性的问题。其在时间信息检索中的优异表现，展示了在处理多时段文档时的潜力，值得关注和深入研究。