NeFut Logo NeFut
EN 管理员登录

[AI学术] 基因组式行为分析:LLM驱动自主智能体的运行时治理新框架

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#algorithm #AI #Open Source

摘要

我们提出了一种基于序列分析的框架,将LLM驱动的自主智能体的运行时行为编码为紧凑的符号序列,使用四个字母的字母表:X(探索)、E(执行)、P(规划)和V(验证)。

借用基因组序列分析的类比,我们应用n-gram模式挖掘、马尔可夫转移矩阵和点双偏相关分析,从一个生产环境的ReAct智能体系统收集的347个真实执行轨迹中进行分析,持续8天。

我们的分析结果显示:

  1. 三元组P-X-P是唯一显著的高风险模式,成功率降低了10.4%;
  2. P比率是成功的最强负向预测因子(r=-0.256, p < 0.01);
  3. E-V转移概率仅为2.1%,表明存在系统性的验证缺陷。

基于这些发现,我们设计了Governor,一个三层次的运行时干预系统,包括规则引擎、统计累加器和基于卡方的阈值适配器。在自然的前后部署评估中(N=101 vs. N=246),Governor实现了任务成功率的绝对提高6.2%,同时将平均token消耗降低了44%。

为了验证跨系统的一般性,我们将XEPV编码应用于2000条公共SWE-agent轨迹,确认探索螺旋和E-V验证缺陷在独立系统中重复出现。我们概述了包括基础序列语言模型、跨智能体行为指纹和奖励塑形在内的六个研究方向,并发布了一个开源工具包以便重现。

博主点评: 本文通过将LLM智能体的行为转化为基因组式的序列分析,提供了一种全新的视角来理解和优化自主智能体的运行。这种方法不仅揭示了高风险行为模式,还提出了有效的干预机制,具有重要的研究与应用价值。开源工具包的发布将进一步促进相关领域的研究与实践。

原文链接: https://arxiv.org/abs/2606.15579

[h] 返回首页