[AI学术] 揭示LLM在标题-摘要筛选中的挑战与建议

在系统评审中，多项研究考察了大型语言模型（LLMs）在标题-摘要筛选中的应用，结果显示准确性存在差异。尽管如此，关于其可靠性的问题仍未得到充分解答。本研究超越了定量的LLM与人类一致性指标，定性地调查了LLMs失败的原因，并提出了可行的建议。

我们分析了LLMs与研究人员之间在六个软件工程系统评审及超过1000篇主要研究论文中的不一致性。在每个系统评审中，专家和LLMs在零-shot模式下独立筛选论文，得到的Kappa值范围在0.52到0.77之间。定性分析表明，人类与LLM的不一致源于一些反复出现且可识别的原因，例如关键术语的边界模糊、关键词的过度强调以及错误的主题推断。

基于这些发现，我们建议在部署前验证语义理解、运行多个LLM，并将验证工作重点放在边界案例上。未来的研究需要验证这些建议的影响，社区也需要共同努力制定LLM在系统评审中使用的规范性指南。

博主点评： 本文深入探讨了LLMs在实际应用中的局限性，为未来的研究提供了重要的方向。有效的模型验证和多模型的使用将显著提高系统评审的准确性，值得更多关注与实践。