[AI学术] 工具主导：大型语言模型代理盲目依赖图神经网络工具

摘要

一项新兴研究为大型语言模型（LLM）代理配备图神经网络（GNN）作为可调用工具，假设代理能够判断何时以及在多大程度上依赖这些工具。我们直接测试这一假设。我们将一个冻结的GNN暴露于ReAct风格的LLM代理作为一个显式工具，并测量在文本属性图（ogbn-arxiv，已在WikiCS上复现）的节点分类任务中，代理是使用该工具还是仅仅遵循它。

我们的发现表明，代理并未行使判断能力：其预测与原始GNN的结果一致率达97.6%-99.2%（5个随机种子），这使得代理变成一个简单的GNN模仿者，完全采纳工具的输出，绕过自身的推理。尽管使用了不同的基础模型能力（Qwen2.5 0.5B-7B），这种依赖并非是弱模型的伪影：在能够调用工具的模型中，一致性随着能力的提升而增加（从1.5B到7B，从0.60上升到0.98）。

关键是，随着能力的增长，依赖的成本并未减少，反而在出现替代方案时增加：在可用动作上，节点级的预言者在3B时超越了模仿者0.09-0.18，在7B时超越了0.12-0.22，尤其在高同质性下，模仿者被固定在冻结的GNN上，而代理的替代方案在改善；在7B时，简单的邻居标签工具在高同质性下超过了GNN（0.81对0.71），但代理仍然依赖于GNN。一个简单的选择性调用门能够弥补大约一半的高同质性差距（从0.71提升到0.83），但没有带来净的全局增益，且持出估计将标准测试时间特征下可实现的最佳门限限制在预言者头部空间的三分之一：可靠的选择性调用看起来受到可用信息的限制，而不仅仅是路由器设计的影响。

我们的结果是一项警示性测量：对代理+工具系统的评估不能假设代理在工具之上增加了判断能力，选择性调用必须在设计中考虑，而不是期望从规模中自然而然地出现。

博主点评： 这项研究揭示了LLM代理对GNN工具的盲目依赖，表明在设计智能代理时，必须重视代理的判断能力和选择性调用机制的有效性。这不仅对未来的研究方向提出了挑战，也为实际应用提供了重要的警示。分析结果强调了在复杂系统中，简单的工具集成可能导致性能瓶颈，值得引起重视。