[AI学术] 突破传统：汽车软件需求的集群感知双层测试规范自动生成

在汽车软件项目中，生成满足汽车SPICE SWE.6要求的测试规范变得愈加复杂且耗时，特别是当项目规模达到数千个需求时。传统的手动生成测试规范的过程往往需要数周的工程时间，因此实现自动化成为了迫切的需求。然而，标准的“大型语言模型”（LLM）方法在处理规模时面临挑战：单独处理需求会忽略重要的需求间依赖，而一次性处理整个语料库又超出了上下文窗口限制，导致集成覆盖不完整和冗余测试用例的产生。

为了解决这些问题，本文提出了一种新颖的“集群-再总结”管道，分为三个阶段。首先，利用句子变换器对需求进行嵌入，并通过UMAP降维和HDBSCAN密度聚类进行分组。该分组过程采用了一种基于质量标准的自动最小集群大小选择，结合了归一化的Silhouette和Calinski-Harabasz评分。接着，采用多层次的Map-Reduce总结算法将每个集群提炼为简明的、符合领域标准的描述，同时保留定量阈值和安全完整性级别。该管道利用派生的集群拓扑生成两级测试规范：个别需求验证和集群级集成测试，以验证跨需求特征的行为。附近集群上下文机制在每次LLM调用时提供有界的跨特征感知，而增强检索生成则确保所有输出符合ISO 26262和ASPICE标准。对不同规模的汽车需求数据集进行的评估表明，集群感知方法在提高集成测试覆盖率和保持总结保真度方面优于基线方法，同时能够有效扩展到数千个需求。

博主点评： 本文针对汽车软件需求的测试规范生成提出了创新的集群感知方法，成功解决了传统方法在依赖性处理和上下文限制上的不足，提升了测试覆盖率，具有较高的实用价值和推广潜力。新的生成流程为大型项目的自动化测试提供了良好的示范。