在教育领域,大语言模型(LLM)被提议作为辅导工具,但更强的任务解决能力并不一定意味着更好的学习支持。最近,关于测量自然语言处理(NLP)系统社会影响的呼声越来越高,因此我们研究公共LLM辅导基准是否能够区分学习支持行为与单纯的答案生成。我们提出了一种轻量级的诊断方法,基于解决导向和教育导向基准表现之间的差距。
通过使用公共的 MathTutorBench 排行榜结果,我们发现这两个维度之间的相关性仅为 0.421,且在从解决转向教育评估时,多个模型的排名发生了显著变化。接着,我们分析了公共的 TutorBench 样本,显示出与学习者自主性相关的行为在基准评分标准中被明确编码,特别是在主动学习设置中,这些设置奖励引导性问题、经过调整的提示和非披露性支架。
综上所述,这些发现表明,教育影响评估不应将任务成功视为学习支持的充分代理。我们认为,公共辅导基准可以通过分别报告解决导向和教育导向的得分,并使与披露敏感、保护学生自主性的标准更加明确,从而更好地支持积极影响的评估。
博主点评: 本文为大语言模型在教育领域的应用提供了重要的评估框架,强调了学习支持与简单回答之间的区别。推动教育技术的有效性评估,未来的研究应更关注如何平衡任务解决与教学支持的关系。