[AI学术] 重塑LLM辅导中的支架：基准与实际应用间的互动不匹配

摘要

AI辅导基准评估中的一个核心教育价值是支架，即通过逐步指导学生解决问题。然而，将支架行为嵌入聊天机器人的对齐和评估方法，隐含地假设学生会接受支架并参与对话。为了验证这一假设，我们引入了一个评估流程，围绕两个指标 - 聊天机器人支架和学生接受度 - 对9490个聊天的九个数据集进行了分析，这些数据集涵盖了AI辅导基准和教育聊天机器人的实际应用。

我们的分析揭示，虽然基准假设存在高支架和高学生接受度的环境，但在实际环境中，学生的接受度整体较低，往往绕过聊天机器人的教育框架，将互动引向自己的学习目标，几乎没有人际成本。我们认为，绕过支架并非必然有害；相反，这通常突显了聊天机器人教育框架与学生学习目标之间的不匹配。

为了有意义地评估聊天机器人的辅助效果，未来的基准必须超越学生会自然而然接受支架的假设，而是评估这些聊天机器人如何应对多样的学习环境和学生驱动的互动模式。

博主点评： 本文提出了一个重要观点，即传统的教育聊天机器人评估方法未能考虑真实环境中学生的实际学习行为。这种不匹配不仅影响了教育效果评估，也为未来的AI辅导系统设计提供了宝贵的启示，必须关注学生的个体学习目标。