NeFut Logo NeFut
EN 管理员登录

[AI学术] DeepInsight:物理人工智能栈的统一评估基础设施

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#AI #Machine Learning #Open Source

在评估物理人工智能栈时,涉及的操作符差异超过三个数量级——从单个基础模型的解码步骤到数千次全身控制的物理时钟。这些操作在模态、奖励语义和资源配置上各异,目前没有任何现有框架能够涵盖这一范围,因此栈的评估通常通过拼接不同的测试框架来完成,这些框架之间既没有运行时共享,也没有评分共享,尽管保留了每个部分的局部有效性,但失去了跨层回归诊断所需的共享身份。

我们提出了 DeepInsight,这是一种评估基础设施,能够在单一运行时下支持整个评估范围。它并不试图将不同的操作模式同质化,而是通过三个狭窄的抽象——任务、资源和结果——来保留其异质性,每个抽象都由每个子系统共享的一个不变量来实现:一个事件驱动程序、一个由每个昂贵后端(包括 LLM 推理和沙箱运行时)实现的资源处理协议,以及一个所有事件都被记录的追踪身份方案。

DeepInsight 已在一个完整的具身人形机器人栈的三个层次中投入生产,这一套不变量通过配置轻松引入新的基准测试。在基础模型端,DeepInsight 复制了已发布的参考和同类框架的读取结果,在相同的节点上更快地运行相同的测试套件,并在节点间近乎线性扩展。其独特的回报在于诊断能力:由于每一层都写入一个共享的追踪中,始于一层的回归如果在另一层显现,仍然可以在该追踪中定位——这是任何分段测试框架无法复现的跨层收益。

博主点评: DeepInsight 的提出解决了物理 AI 栈评估中的关键问题,通过统一的基础设施增强了各层之间的可诊断性与效率。它的设计理念不仅考虑了性能,还关注了系统的可扩展性,为未来的 AI 研究提供了重要的参考。

原文链接: https://arxiv.org/abs/2606.17574

[h] 返回首页