NeFut Logo NeFut
EN 管理员登录

[AI学术] 揭秘LLM在A/B测试中的统计基础:人类因果推断的替代框架

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#AI #Machine Learning #optimization

随着组织和研究者对使用大型语言模型(LLMs)代替人类参与者进行A/B测试的兴趣日益浓厚,期望以更快的速度和更低的成本进行实验,我们研究了在何种情况下通过LLM结果估计的处理效应能够恢复在目标人群中测量的效应。LLM与人类结果之间的分布等价性将使任何标准估计量有效,但这在实际中并不现实。因此,我们发展了一个统计框架,将替代终点理论适应于LLMs。

该框架显示,通过将LLM结果校准为人类结果,可以在替代性和可比性条件下识别平均处理效应,这些条件的联合强度低于分布等价性。当这些条件不成立时,感兴趣的效应只能部分识别,我们提供了一些诊断工具,可以在历史实验中否定替代性,并提供有限重叠带来的最坏情况偏差的界限。

此外,我们进一步展示了LLMs固有的随机性引入了偏差和方差,但使用多个抽样的平均值作为替代可以减轻这两者。我们在模拟和对Upworthy标题的A/B测试应用中展示了这些方法和理论。

我们工作的一个中心观点是,LLM结果作为替代的有效性只能针对过去的处理进行否定,而无法验证新的处理,因此人类实验在新干预中仍然不可或缺。我们还讨论了LLM选择、提示和温度作为设计变量的作用,以及如何为验证设计人类实验的规模。

博主点评: 这项研究为LLM在A/B测试中的应用提供了重要的统计基础,强调了在没有人类实验的情况下,使用LLM结果作为有效替代的局限性。尽管LLM能够加速实验过程,但仍需要谨慎对待其结果的有效性,确保在新干预中进行必要的人类验证。

原文链接: https://arxiv.org/abs/2606.17165

[h] 返回首页