精度飙升13.7%！复旦发布CAD参数化新基准，PHT-CAD框架精准解析工程图纸

引言

在当前的 CAD 参数化任务中，主流方案往往仅聚焦于工程图纸的几何图层，而忽视了标注图层的重要性。上述这一局限性导致许多学术上的解决方案难以直接应用于实际工业设计流程中。

为了填补学术社区中这一类数据集的缺失，本文推出了 ParaCAD——首个整合了标注图层的大规模 CAD 参数化基准数据集。此外，为解决 CAD 参数化任务面临着两大核心挑战（即结构约束推理和高级语义理解），本文提出了名为 PHT-CAD 的新型二维参数化图元分析框架。该框架利用视觉-语言模型（VLMs）的模态对齐和推理能力，以实现对工程图纸的精确分析。

在模型训练方面，本文提出了渐进式分层调优（Progressive Hierarchical Tuning, PHT）策略，旨在逐步提升 PHT-CAD 的能力，使其不仅能更精准地感知单个图元，还能有效地推断出结构约束，并将标注层与对应的几何表示进行精准对齐。

实验结果表明，提出的 PHT-CAD 方法相较于现有 SOTA 实现了显著的性能提升。这一成果标志着向解决 CAD 参数化领域难题迈出了重要一步，期望这项工作能够激发更多关于如何更好地结合 VLMs 来处理复杂工程图纸的讨论与探索。

论文地址：

https://arxiv.org/abs/2503.18147

项目地址：

https://github.com/yuwen-chen616/PHT-CAD

首个包含真实数据和尺寸标注图层的 CAD 参数化 Benchmark：ParaCAD

现有 CAD 参数化数据集主要有两个关键问题：

1）缺少标注图层：工程图纸包含几何图层和标注图层两部分。几何图层编码了几何图元及其约束关系，而标注图层则提供了制造所需的关键信息，包括尺寸标注、功能符号和工艺说明。现有的学术数据集都不包含标注图层。

2）缺少真实数据：与草图和手绘图像不同，真实数据具有显著更高的结构复杂性，包含更多的几何图元、复杂的相互关系以及更高的信息密度。此外，它们必须符合现实中的物理约束，以确保可制造性和功能性（例如，完全封闭形状的要求）。同时，工程图纸中通常会包含干扰元素，例如标注线条等。

为解决以上问题，我们提出了新的 CAD 参数化 Benchmark：ParaCAD。部分数据样例如下图所示：

▲ 图1 ParaCAD 的部分样例

1. 数据处理流程

为了构建带有尺寸标注的 CAD 参数化数据，本文提出了一套相应的数据处理流程，如下图所示。

▲ 图2 数据处理流程

步骤 1：数据预处理与 DXF 文件生成

首先，进行数据预处理，明确图元类型，过滤图元过于简单的样本，最后将草图转换为对应的 DXF 文件。

步骤 2：尺寸标注与多格式转换

使用 ezdxf 工具为草图添加尺寸参数标注，从而生成带有尺寸标注的新 DXF 文件。最终，得到两个版本的 DXF 文件：仅包含几何图元的未标注 DXF 文件和带有尺寸标注的 DXF 文件。随后，这两种文件被分别转换为结构化的 JSON 文件和 PNG 图像。

步骤 3：几何约束提取与 JSON 结构化

对步骤 2 中生成的 JSON 文件进行处理，通过分析图元之间的位置关系来提取几何约束。这些约束随后被插入到对应的 JSON 文件中，以确保文件包含图元信息、约束信息和尺寸标注信息

2. 评测方法

在评测方面，现有的草图参数化方法使用的评估指标并不一致。为了解决这一问题，文本复现了部分现有方法，同时补充了缺失的评估指标，以确保一个全面且统一的评估框架。此外，为了定量评估几何图层和标注图层关联的准确性，本文引入了一项新的评价指标——尺寸精度（Dimension Accuracy, DA），用于评估预测尺寸与其对应的真实标注之间的对齐情况。

此外，本文总结了三种模型性能的评估范式：

1）标准评估：模型在已有各数据集的训练集上进行训练，并在其对应的测试集上进行评估，模拟标准的 CAD 参数化流程；

2）零样本评估：模型在单个数据集的训练集上进行训练，并在未见过的测试集上进行评估，模拟零样本场景；

3）基于尺寸的评估：使用提出的 DA 指标评估几何图层与标注图层之间的匹配准确性。

基于大模型的 CAD 参数化新范式：PHT-CAD

1. 高效混合参数化（Efficient Hybrid Parametrization）

现有的参数化策略主要包括：隐式策略、基于点的策略和过参数化策略。此类策略的信息密度比较差，同时与 VLMs 模型的适配性不高。

在这些现有参数化策略的基础上，本文提出了一种新的表示方法——高效混合参数化（Efficient Hybrid Parametrization, EHP），将基于点的策略与隐式策略相结合，同时消除冗余信息以提高效率和一致性。综上所述，EHP 可以描述为：

其中，和分别表示起点和终点坐标，是一个二进制指示符，用于指定有效性（例如，实线或虚线）。表示圆心坐标，表示半径。分别表示起始角和终止角。

2. 模型框架

PHT-CAD 的详细架构如下图 3 所示。

▲ 图3 模型框架结构

PHT-CAD 中的视觉编码器基于 Vision Transformer 构建，文本解码器基于 Qwen2.5 构建。现有的 VLMs 通常采用交叉熵损失进行优化。但交叉熵损失并未显式考虑预测值与真实值之间的数值差异，因此不适用于精确的参数预测。此外，离散数值的 Token 预测对大语言模型仍然是一个挑战。

因此，本文提出的 PHT-CAD 额外引入了四个专有回归头以分别预测四个基本图元的数值参数。为了更有效的监督专有回归头的输出，本文基于均方误差（Mean Squared Error, MSE）损失提出参数化均方误差（Parametric Mean Squared Error, P-MSE）损失，以提高图元参数化的精度。

3. 渐进式分层调优（Progressive Hierarchical Tuning, PHT）

渐进式分层调优策略主要分为三个阶段，如下图所示：

▲ 图4 渐进式分层调优策略

1）第一阶段-图元感知调优：这一阶段的任务是识别和分类单个几何图元，并以结构化的参数化格式输出它们对应的参数。

2）第二阶段-结构感知调优：这一阶段扩展模型对工程图纸中所有图元的感知能力，并理解它们之间的相互依赖关系和约束条件。

3）第三阶段-标注几何对齐：最后一个调优阶段旨在增强模型处理包含尺寸标注的工程图纸的能力，同时预测图元、约束条件以及尺寸信息。

通过渐进式分层调优（PHT）策略，模型的内在几何感知和推理能力逐步增强，从而实现细粒度的图元参数化。

实验结果

1）标准评估

下表展示了在 SketchGraph 数据集上性能对比。其中，PHT-CAD 表现出色，在精确草图图像上的准确率比当前 SOTA 方法提升了 6%。当训练数据和测试数据之间的领域差距较小时（即不包含手绘数据时），性能提升更为显著，准确率提高了 10.8%。

在手绘草图图像上，PHT-CAD 的准确率提升了 13.7%。这些显著的改进主要源于训练过程的第一阶段和第二阶段中引入的调优措施，这些措施提升了模型对图元的感知能力以及学习结构化约束的能力。

▲ 表1 标准评估下的性能对比

2）零样本评估

下表报告了 PHT-CAD 在零样本评估范式下与 SOTA 方法的对比结果。该设置下，SketchGraph 作为训练集，CADL 作为测试集。

PHT-CAD 在所有指标上均优于其他方法，在准确率指标上提升了 11.4%。这一显著的性能提升主要得益于模型能够利用视觉-语言模型（VLMs）固有的结构约束推理和语义理解能力，从而使模型具备强大的泛化能力。

▲ 表2 零样本评估下的性能对比

3）基于尺寸的评估

由于该领域尚无此前的研究工作，本文仅报告 PHT-CAD 在 ParaCAD 数据集上的性能，以推进学术社区的进一步探索。如下表所示，提出的 PHT-CAD 在准确率（Acc）指标上达到了 84.0%。

▲ 表3 基于尺寸的评估结果

4）消融实验

三阶段 PHT 策略

本文分别对调优策略的第一阶段和第二阶段进行了消融实验，结果如下表所示。在缺少第一阶段的情况下，性能显著下降，准确率指标降低了 12%。

由于第一阶段的训练目标是识别和分类单个几何图元，这为模型感知整个图纸奠定了关键基础。因此，第一阶段缺失导致了较为显著的性能下降。与缺少第一阶段相比，当不使用第二阶段时，性能下降更为显著，PHT-CAD 的准确率下降了近 15%。

▲ 表4 三阶段 PHT 消融结果

P-MSE损失

如下表所示，本文比较了在 SketchGraph 和 ParaCAD 数据集上使用和不使用 P-MSE 损失的模型性能。结果表明，使用 P-MSE 损失的模型在这两个数据集上均实现了显著的性能提升。P-MSE 损失有效提高了模型的准确率和图像重建质量，尤其在 SketchGraph 数据集上的效果更为明显。

此外，如下图所示，我们提供了使用和不使用 P-MSE 损失的模型之间的可视化对比。显然，在引入 P-MSE 后，模型对图元细粒度细节的感知能力得到了显著提升。

▲ 表5 P-MSE 损失消融实验结果

▲ 图5 使用和不使用 P-MSE 损失下的模型预测结果可视化对比

结论

本文提出了 PHT-CAD，一种创新的 CAD 参数化图元分析框架，利用视觉-语言模型（VLMs）的能力实现精确的工程图纸分析。通过提出高效混合参数化（EHP）策略，增强了参数化表示的精度和一致性，并通过广泛的实验验证了其有效性。

此外，本文发布了 ParaCAD，这是首个包含几何图层和标注图层的大规模 2D-CAD 参数化基准数据集，填补了现有数据空白并具备较高的实际应用价值。在多个基准上的实验结果验证了 PHT-CAD 的有效性，标志着 2D-CAD 参数化在工业设计和制造应用领域取得了重要进展。

（文：PaperWeekly）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复