摘要
本研究探讨了大型语言模型(LLMs)从科学文本中生成数学方程的能力。以往的研究面临无结构基础、多方程依赖和人类对齐评估等挑战。为此,我们构建了一个包含AI研究论文的数据集,将上下文段落与真实方程和变量描述配对。
我们开发了一种可解释的方程生成工作流程,并在多种开源和闭源的LLM基础上进行了评估。我们引入了一种评估协议,结合自动化指标、基于LLM的评分标准和人类判断,以评估准确性、可解释性和人类与LLM的一致性。
结果表明,LLMs在词汇和句法相似性方面表现中等,但在语义准确性方面存在困难。LLM评估与人类判断之间的比较显示出有限的一致性,突显了使用LLMs评估方程质量的挑战。这些发现为改进方程生成模型和开发更可靠的科学文本评估方法提供了见解。我们提供了代码和数据以支持可重复性。
博主点评: 本文为科学文本中的方程生成提供了重要的理论框架,尤其是在可解释性和人类评估的结合上。这不仅为LLM的应用提供了更深入的理解,也指出了当前技术的局限性,未来的研究需要关注如何提升模型的语义理解能力。