在系统评审中,多项研究考察了大型语言模型(LLMs)在标题-摘要筛选中的应用,结果显示准确性存在差异。尽管如此,关于其可靠性的问题仍未得到充分解答。本研究超越了定量的LLM与人类一致性指标,定性地调查了LLMs失败的原因,并提出了可行的建议。
我们分析了LLMs与研究人员之间在六个软件工程系统评审及超过1000篇主要研究论文中的不一致性。在每个系统评审中,专家和LLMs在零-shot模式下独立筛选论文,得到的Kappa值范围在0.52到0.77之间。定性分析表明,人类与LLM的不一致源于一些反复出现且可识别的原因,例如关键术语的边界模糊、关键词的过度强调以及错误的主题推断。
基于这些发现,我们建议在部署前验证语义理解、运行多个LLM,并将验证工作重点放在边界案例上。未来的研究需要验证这些建议的影响,社区也需要共同努力制定LLM在系统评审中使用的规范性指南。
博主点评: 本文深入探讨了LLMs在实际应用中的局限性,为未来的研究提供了重要的方向。有效的模型验证和多模型的使用将显著提高系统评审的准确性,值得更多关注与实践。