NeFut Logo NeFut
EN 管理员登录

[AI学术] LLM特征可能损害GNN性能:同质图基准中的连接干扰

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#Machine Learning #Graph #GNN

在图神经网络(GNN)中加入LLM生成的节点特征通常被认为能提高标准基准的准确性,但我们发现一个相反的现象:当通过纯输入连接的方式引入LLM特征时,会系统性降低在同质基准上的准确性。

具体来说,在使用MLP骨干网络和原始的词袋特征进行实验时,连接SBERT编码的GPT-4o-mini TAPE特征后,PubMed测试准确性下降了-17.0 +/- 0.3个百分点,Cora下降了-4.3 +/- 0.6个百分点(CiteSeer下降-0.6 +/- 0.8个百分点,处于种子噪声范围内)。

当我们放宽条件(如使用GCN / GCNII / GAT骨干网络、随机拆分或较小的编码器)时,准确性下降的幅度减弱,并且在中等同质性数据集WikiCS上反转,提升了+4.4个百分点,在ogbn-arxiv上提升了+11.7个百分点。

为了预测何时连接有利于或有害于模型,我们提出了一种简单的LLM单独可区分性度量Delta_sig。在9个数据集上,Delta_sig与连接成本的相关性强于同质性($r^2 = 0.38$ vs. $0.06$;$N=9$,bootstrap置信区间重叠)。最佳变更点为$\tau = 13.8$个百分点,规则为“Delta_sig > \tau”时连接有利。

博主点评: 这项研究揭示了LLM特征在GNN中的潜在问题,强调了输入处理方式对模型性能的重要性。在实际应用中,选择合适的特征融合策略至关重要,尤其是在同质图数据集上。研究结果为未来的特征设计提供了新的视角和方向。

原文链接: https://arxiv.org/abs/2606.17579

[h] 返回首页