[AI学术] FoundCause：从观察数据中发现因果关系的新突破

摘要

因果发现从观察数据中仍然具有挑战性，因为需要在没有干预的情况下恢复有向结构和潜在混淆因素。我们提出了FoundCause，这是一种完全基于合成数据训练的增量因果发现模型，能够在单次前向传播中将数据集直接映射到因果图上。通过学习大量模拟结构因果模型，FoundCause捕捉到可转移的统计模式，这些模式超越了单个数据集的限制。

该架构结合了几个关键的归纳偏差以支持因果发现。它使用具有交替注意力的置换不变变换器编码器，联合建模跨变量依赖性和每个变量的分布。通过统计条件注意力注入的成对统计特征，指导模型朝向已知因果信号。一个因子化解码器将边的存在与方向分离，而一个三角形细化模块使模型能够推理更高阶的因果模式，如链和碰撞器。此外，一个基于可学习潜在标记的专用混淆模块明确建模隐藏的共同原因，并且该模型通过其掩码输入表示明确处理缺失数据。

据我们所知，FoundCause是第一个显式建模潜在混淆的增量因果发现方法。FoundCause在15个真实世界数据集上超越了11种经典的非增量方法（如PC、GES、NOTEARS风格优化）和4种增量因果发现方法，实现了在$F_1$上提高9.6%，AUROC提高1.2%，以及相较于最强的非增量方法在结构汉明距离上减少18.9%的性能提升，同时在单次前向传播中完成推理。

博主点评： FoundCause通过创新的架构和高效的模型设计，成功解决了因果发现中的潜在混淆问题，展示了增强学习和深度学习在复杂数据分析中的强大能力。这一进展不仅提升了因果推断的准确性，也为未来的研究提供了新的思路和工具。其在多个真实数据集上的表现也证明了其广泛的适用性和有效性。