[AI学术] 跨数据集布鲁姆问题分类：监督模型与提示式大语言模型的对比研究

摘要

自动化进行布鲁姆分类法的评估问题分类能显著减轻教师的工作负担，但标签的主观性和依赖于教师的特性使得这一过程复杂。以往的机器学习（ML）和深度学习（DL）方法在同一数据集上的表现良好，但在跨数据集环境下的评估却较少，这使得其在实际应用中的推广性存疑。同时，大语言模型（LLM）在布鲁姆问题分类中的有效性尚未得到系统性研究。

我们对现有的ML/DL方法在跨数据集上的泛化能力进行了评估，并使用多种提示策略测试LLMs，涵盖了五个数据集。结果表明，最佳的提示策略是结合上下文示例与课程特定动词。监督学习的ML/DL模型在未见数据集上表现显著下降，而LLMs则更为稳定，表明其在不同教育环境中的鲁棒性。

基于最佳提示策略，我们还呈现了一个轻量级用户界面（UI），支持教师自动分类大量问题库；可用性研究显示该界面工作负担低且易于使用。

博主点评： 这项研究突出了LLM在教育领域的潜力，尤其是在处理主观性强的任务时。与传统的监督学习方法相比，LLM展现了更好的适应性和稳定性，未来有望成为教育工作者的重要工具。通过轻量级的UI设计，进一步降低了教师的工作负担，极大提升了教育效率。