NeFut Logo NeFut
EN 管理员登录

[AI学术] ESG叙事评分中的推理重模型的边际效益有限:基于四模型共识的日本上市公司研究

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#algorithm #AI #Machine Learning

在自动化的ESG叙事披露评分中,使用大型语言模型(LLMs)正在受到广泛关注。然而,推理重的前沿模型是否能带来与其成本相称的价值,仍然缺乏实证研究。我们在十家日本上市公司的数据集上评估了这个问题,分析了三个评估维度——定量目标、进展跟踪基础设施和外部标准对齐,采用四模型共识设计,将推理重模型与三种推理轻模型进行对比。

在120个公司 x 维度 x 模型的评分中,推理重模型与每个推理轻模型之间的综合平均绝对偏差为0.38(满分5分);仅有2%的成对比较达到两点偏差,且没有一项超过两点。每家公司成本核算显示,推理重模型的成本大约是三种推理轻模型组合的5.6倍,但结果的差异仅在小范围内。因此,我们得出结论,在基于跨度的ESG叙事评分中,推理重模型的部署并未显著改善结果,相比于推理轻模型的共识,反而大幅增加了运营成本。我们讨论了这一发现对成本效益ESG自动评分管道及LLM部署治理的影响。早期版本的研究可在SSRN上查阅(摘要ID 6683303)。

博主点评: 本研究揭示了推理重模型在ESG评分中的边际效益有限,强调了开发成本与实际收益之间的矛盾,提示我们在选择模型时需更加谨慎,尤其是在资源有限的情况下。

原文链接: https://arxiv.org/abs/2606.13693

[h] 返回首页