[AI学术] DeepInsight：物理人工智能栈的统一评估基础设施

在评估物理人工智能栈时，涉及的操作符差异超过三个数量级——从单个基础模型的解码步骤到数千次全身控制的物理时钟。这些操作在模态、奖励语义和资源配置上各异，目前没有任何现有框架能够涵盖这一范围，因此栈的评估通常通过拼接不同的测试框架来完成，这些框架之间既没有运行时共享，也没有评分共享，尽管保留了每个部分的局部有效性，但失去了跨层回归诊断所需的共享身份。

我们提出了 DeepInsight，这是一种评估基础设施，能够在单一运行时下支持整个评估范围。它并不试图将不同的操作模式同质化，而是通过三个狭窄的抽象——任务、资源和结果——来保留其异质性，每个抽象都由每个子系统共享的一个不变量来实现：一个事件驱动程序、一个由每个昂贵后端（包括 LLM 推理和沙箱运行时）实现的资源处理协议，以及一个所有事件都被记录的追踪身份方案。

DeepInsight 已在一个完整的具身人形机器人栈的三个层次中投入生产，这一套不变量通过配置轻松引入新的基准测试。在基础模型端，DeepInsight 复制了已发布的参考和同类框架的读取结果，在相同的节点上更快地运行相同的测试套件，并在节点间近乎线性扩展。其独特的回报在于诊断能力：由于每一层都写入一个共享的追踪中，始于一层的回归如果在另一层显现，仍然可以在该追踪中定位——这是任何分段测试框架无法复现的跨层收益。

博主点评： DeepInsight 的提出解决了物理 AI 栈评估中的关键问题，通过统一的基础设施增强了各层之间的可诊断性与效率。它的设计理念不仅考虑了性能，还关注了系统的可扩展性，为未来的 AI 研究提供了重要的参考。