[AI学术] 评估大语言模型辅导的教育影响：教与解的分水岭

在教育领域，大语言模型（LLM）被提议作为辅导工具，但更强的任务解决能力并不一定意味着更好的学习支持。最近，关于测量自然语言处理（NLP）系统社会影响的呼声越来越高，因此我们研究公共LLM辅导基准是否能够区分学习支持行为与单纯的答案生成。我们提出了一种轻量级的诊断方法，基于解决导向和教育导向基准表现之间的差距。

通过使用公共的 MathTutorBench 排行榜结果，我们发现这两个维度之间的相关性仅为 0.421，且在从解决转向教育评估时，多个模型的排名发生了显著变化。接着，我们分析了公共的 TutorBench 样本，显示出与学习者自主性相关的行为在基准评分标准中被明确编码，特别是在主动学习设置中，这些设置奖励引导性问题、经过调整的提示和非披露性支架。

综上所述，这些发现表明，教育影响评估不应将任务成功视为学习支持的充分代理。我们认为，公共辅导基准可以通过分别报告解决导向和教育导向的得分，并使与披露敏感、保护学生自主性的标准更加明确，从而更好地支持积极影响的评估。

博主点评： 本文为大语言模型在教育领域的应用提供了重要的评估框架，强调了学习支持与简单回答之间的区别。推动教育技术的有效性评估，未来的研究应更关注如何平衡任务解决与教学支持的关系。