摘要
参数化计算机辅助设计(CAD)不仅记录最终几何形状,还记录决定零件如何编辑的构建历史。因此,针对可编辑CAD研究的数据集应同时暴露建模操作、参数和特征依赖关系,以及经过验证的几何形状。
我们推出了FllumaOne,这是一个代码原生的多模态CAD数据集,其模型由Flluma中的可执行Python程序生成,该系统基于Qt/C++和OpenCASCADE。每个样本都将其程序与结构化特征树、面向训练的中间表示、STEP几何形状、表面点云、自然语言描述、元数据以及八种典型的可见边渲染对齐。
主要版本FllumaOne-100K包含100,000个被接受的样本,涵盖四种模板级复杂性。程序仅在内核几何形状、实体有效性和导出检查后执行并保存;发布报告还记录了模态完整性和分割级别的重复测试。
基于Qwen2.5-Coder-1.5B LoRA的基线模型在80,000个样本上训练,达到了99.98%的Python语法有效性、99.97%的Flluma构建成功率和99.14%的STEP导出有效性,测试集包含10,000个样本。对于转换为表面点云的9,909个预测,均值归一化Chamfer距离为0.002124。
该数据集支持条件CAD重构、可执行程序合成、特征树预测、边界表示分析、检索、设计完成和可编辑的逆向工程。
博主点评: FllumaOne数据集的发布标志着CAD研究领域的重大进步,尤其是其通过可执行程序生成模型的创新方式,为设计自动化和逆向工程提供了新的可能性。其高效的验证机制确保了数据的质量,为后续的研究和开发奠定了坚实基础。