在法律案例检索中,由于法律语言的复杂性以及查询与相关案例之间需要精确的词汇对齐,检索仍然面临挑战。尽管密集检索模型取得了显著进展,实证研究表明,BM25在该领域依然是一个强大的基线。这激励我们提出一种自演化框架,用于基于规则的查询重写,旨在增强BM25而无需任何参数训练。
该框架为基于大型语言模型(LLM)的代理提供了一个自动评估环境,使其能够迭代创建重写规则,规划规则组合的验证实验,并根据历史反馈消除无效规则。我们在中国法律案例检索基准LeCaRD-v2上评估了我们的方法。
实验结果表明,所提框架在非演化基线(包括人类设计的规则和贪婪规则选择)之上表现优异,尤其是在高容量核心LLM的支持下。我们还进行了详细分析,以探讨自演化的机制。研究发现,LLM利用先前实验结果的能力以及其对规则消除的内在知识在通过自演化改进规则集方面起到了关键作用。
博主点评: 该研究展示了如何通过自演化机制提升法律案例检索的效果,尤其是在复杂的法律语言环境中。利用LLM的能力,不仅增强了查询重写的准确性,还使得系统能够自我改进,展现出强大的适应性和灵活性。这样的创新为法律技术领域带来了新的思路,值得关注。