NeFut Logo NeFut
EN 管理员登录

[AI学术] DR-DCI:通过动态工作区扩展实现直接语料交互的规模化

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#algorithm #optimization #C++

摘要

在大规模语料库中进行代理搜索依赖于检索器中介接口(如 BM25 或 ColBERT)来实现可扩展的候选发现。这些接口虽然在排名相关文档方面有效,但仅以排名结果或有限文档视图的形式展示证据,限制了代理重组材料和验证跨文档约束的能力。直接语料交互(DCI)通过暴露可执行的语料操作,解决了这一限制,提供灵活的搜索、过滤、比较和验证功能。然而,随着语料库的增长,完整语料终端命令变得缓慢且不稳定,导致性能和效率下降。我们引入了 DR-DCI,一个以检索器驱动的 DCI 框架,将检索视为可由代理调用的操作,以扩展本地工作区。代理并不直接在完整语料库上操作,而是动态地将相关文档拉入一个不断演变的工作区,并在其中进行 DCI 操作。这种设计将检索器级别的召回与 DCI 风格的精确性相结合:检索保持探索的可扩展性,而 DCI 则保留了有效证据解析所需的本地操作。

实验结果

实验表明,DR-DCI 在不同规模下既有效又高效。在 Browsecomp-Plus 上,DR-DCI 达到 71.2\% 的准确率,相较于原始 DCI 和消融变体提升了最多 8.3 个点,同时减少了工具使用、墙时和估计成本。通过保持工作区的上下文重置,准确率进一步提高至 73.3\%。在语料库缩放实验中,DR-DCI 在从 100K 到 10M 文档的范围内依然有效,而原始 DCI 变得不稳定,BM25 的表现则大幅下降。DR-DCI 还在 20M 规模的文件每文档 Wiki-18 QA 设置中扩展,六个基准的平均分数达到 63.0,超越了基于检索和训练的搜索代理基线。消融分析进一步表明,排名预览和跨文档 DCI 是性能的关键。

博主点评: DR-DCI 框架通过动态扩展工作区,有效解决了传统检索方法在处理大规模语料库时的性能瓶颈。其在准确性和效率上的双重提升,展示了在可扩展性与精确性之间的成功平衡,值得关注与学习。

原文链接: https://arxiv.org/abs/2606.14885

[h] 返回首页