[AI学术] ESG叙事评分中的推理重模型的边际效益有限：基于四模型共识的日本上市公司研究

在自动化的ESG叙事披露评分中，使用大型语言模型（LLMs）正在受到广泛关注。然而，推理重的前沿模型是否能带来与其成本相称的价值，仍然缺乏实证研究。我们在十家日本上市公司的数据集上评估了这个问题，分析了三个评估维度——定量目标、进展跟踪基础设施和外部标准对齐，采用四模型共识设计，将推理重模型与三种推理轻模型进行对比。

在120个公司 x 维度 x 模型的评分中，推理重模型与每个推理轻模型之间的综合平均绝对偏差为0.38（满分5分）；仅有2%的成对比较达到两点偏差，且没有一项超过两点。每家公司成本核算显示，推理重模型的成本大约是三种推理轻模型组合的5.6倍，但结果的差异仅在小范围内。因此，我们得出结论，在基于跨度的ESG叙事评分中，推理重模型的部署并未显著改善结果，相比于推理轻模型的共识，反而大幅增加了运营成本。我们讨论了这一发现对成本效益ESG自动评分管道及LLM部署治理的影响。早期版本的研究可在SSRN上查阅（摘要ID 6683303）。

博主点评： 本研究揭示了推理重模型在ESG评分中的边际效益有限，强调了开发成本与实际收益之间的矛盾，提示我们在选择模型时需更加谨慎，尤其是在资源有限的情况下。