[AI学术] 突破知识追踪瓶颈：基于经验贝叶斯收缩的逐项偏差修正

在知识追踪模型中，训练完成后模型通常会被冻结，但由于基础架构在逐项表达能力上的限制以及部署后项目属性的变化，导致了系统性的逐项对数偏差，从而降低了预测质量。虽然全局后验校准方法（如 Platt 缩放、温度缩放和等距回归）能改善概率估计，但对 AUC 的判别能力没有影响。这种 AUC 不变性是单调得分变换的结构性后果；恢复这些被困的判别能力需要基于项目身份进行条件处理。

我们提出了 SLC（状态空间对数校正）方法，该方法通过 Laplace/IRLS 将二元观察值转化为高斯伪观察值，应用经验贝叶斯收缩通过卡尔曼平滑器，并拟合偏移 Platt 连接。状态空间的构造还提供了一个可检测性界限，表征了伯努利信息的下限，解释了为什么在当前数据密度下，时间跟踪并没有带来好处。在四个数据集、五个基础架构和三个随机种子上，SLC 在所有四个数据集上都提高了 AUC，并在三个数据集上改善了 NLL，优势集中在稀疏项目上。跨领域的控制实验表明，当部署的基础架构留下实体级偏差时，这种现象可能超越教育领域。

博主点评： 本文提出的 SLC 方法在知识追踪模型中通过逐项偏差修正显著提升了模型的判别能力，尤其是在稀疏数据集上。通过结合状态空间理论与经验贝叶斯方法，展示了创新的思路与实用的效果，对教育领域外的其他应用也具有启示意义。