[AI学术] 开创性基准与框架：评估电子表格中的下一步动作预测

在软件开发中，预测代码补全能够显著提高开发效率。然而，在电子表格中，尽管其使用频率更高，这种自动补全功能却几乎不存在。为了解决这一问题，本文提出了一种基准，用于观察用户在电子表格中的动作序列并预测未来的动作。

面临的两个挑战包括：

公共电子表格语料库中缺乏编辑历史。
电子表格动作的复杂性（空间、时间、复合）。

为了解决第一个挑战，我们手动整理了52个动作序列，总计12K个动作，这些动作重建自公共语料库，并通过参数化启发式和大规模语言模型（LLM）优化进行种子生成。针对第二个挑战，我们提出了一种在线评估方法，该方法要求在每次用户动作后进行预测，接受或拒绝该预测，并在接受后更新未来动作，直到获得目标电子表格。

我们使用了多个基线预测器，包括零样本LLM、微调的序列学习模型（SLM）和经典模型，并分析了基准所揭示的不同属性，这些属性包括但不限于：保存动作的特性、误报、效率、用户档案的影响、触发器的效果及上下文的影响。

博主点评： 这项研究填补了电子表格操作中智能预测的空白，提供了一个系统的框架与基准，有助于推动相关技术的发展。通过分析用户行为模式，未来的电子表格工具可以实现更智能的自动补全，极大提升用户体验和工作效率。