[AI学术] 教育领域的LLM评判者：基于课程的评分管道创新

摘要

生成式AI和大型语言模型（LLMs）在问题生成和自动评估中的应用日益广泛。然而，在高风险考试的准备过程中，部署LLMs不仅仅依赖于提示工程；它还需要系统化的软件管道，将模型输出与教育当局发布的授权课程材料和评分指南相结合。

本文提出了一种基于课程的、可配置的LLM评判者管道，旨在支持大学入学考试的准备工作。该管道能够识别问题相关的主题、子主题和认知需求，并组装可验证的授权上下文，以支持LLM的判断。课程意图通过具体的教学大纲材料实现，包括规定的动词和学习成果、表现等级描述、术语定义及评分指导原则。

采用分阶段的LLM工作流程，首先生成特定问题的评分标准，捕捉表现的结构化期望，然后推导和评估用于给学生回答打分的评分标准。该设计提高了一致性、透明度，并与官方评分实践保持一致。初步评估表明，所提出的LLM评判者管道提供的评分结果与人类辅导员相当，同时所给出的理由更能追溯至授权的课程材料和评分标准。

此外，该管道已集成到一个在线学习平台中，早期部署数据提供了对运营使用和手动覆盖的初步见解。

博主点评： 这项研究展示了如何将LLM与教育课程相结合，提供了一种创新的评分方式，极大地提升了评估的公正性与透明度。随着技术的进步，未来的教育评估方式将更加依赖于智能化工具。