[AI学术] 揭秘LLM在A/B测试中的统计基础：人类因果推断的替代框架

随着组织和研究者对使用大型语言模型（LLMs）代替人类参与者进行A/B测试的兴趣日益浓厚，期望以更快的速度和更低的成本进行实验，我们研究了在何种情况下通过LLM结果估计的处理效应能够恢复在目标人群中测量的效应。LLM与人类结果之间的分布等价性将使任何标准估计量有效，但这在实际中并不现实。因此，我们发展了一个统计框架，将替代终点理论适应于LLMs。

该框架显示，通过将LLM结果校准为人类结果，可以在替代性和可比性条件下识别平均处理效应，这些条件的联合强度低于分布等价性。当这些条件不成立时，感兴趣的效应只能部分识别，我们提供了一些诊断工具，可以在历史实验中否定替代性，并提供有限重叠带来的最坏情况偏差的界限。

此外，我们进一步展示了LLMs固有的随机性引入了偏差和方差，但使用多个抽样的平均值作为替代可以减轻这两者。我们在模拟和对Upworthy标题的A/B测试应用中展示了这些方法和理论。

我们工作的一个中心观点是，LLM结果作为替代的有效性只能针对过去的处理进行否定，而无法验证新的处理，因此人类实验在新干预中仍然不可或缺。我们还讨论了LLM选择、提示和温度作为设计变量的作用，以及如何为验证设计人类实验的规模。

博主点评： 这项研究为LLM在A/B测试中的应用提供了重要的统计基础，强调了在没有人类实验的情况下，使用LLM结果作为有效替代的局限性。尽管LLM能够加速实验过程，但仍需要谨慎对待其结果的有效性，确保在新干预中进行必要的人类验证。