摘要
生成式AI和大型语言模型(LLMs)在问题生成和自动评估中的应用日益广泛。然而,在高风险考试的准备过程中,部署LLMs不仅仅依赖于提示工程;它还需要系统化的软件管道,将模型输出与教育当局发布的授权课程材料和评分指南相结合。
本文提出了一种基于课程的、可配置的LLM评判者管道,旨在支持大学入学考试的准备工作。该管道能够识别问题相关的主题、子主题和认知需求,并组装可验证的授权上下文,以支持LLM的判断。课程意图通过具体的教学大纲材料实现,包括规定的动词和学习成果、表现等级描述、术语定义及评分指导原则。
采用分阶段的LLM工作流程,首先生成特定问题的评分标准,捕捉表现的结构化期望,然后推导和评估用于给学生回答打分的评分标准。该设计提高了一致性、透明度,并与官方评分实践保持一致。初步评估表明,所提出的LLM评判者管道提供的评分结果与人类辅导员相当,同时所给出的理由更能追溯至授权的课程材料和评分标准。
此外,该管道已集成到一个在线学习平台中,早期部署数据提供了对运营使用和手动覆盖的初步见解。
博主点评: 这项研究展示了如何将LLM与教育课程相结合,提供了一种创新的评分方式,极大地提升了评估的公正性与透明度。随着技术的进步,未来的教育评估方式将更加依赖于智能化工具。