From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach


この論文では、2D CAD 図面から 3D パラメトリック モデルを再構成する新しい方法である CAD2Program を紹介します。
私たちが提案する手法は、ビジョン言語モデル (VLM) における最近の成功に触発されており、タスク固有のデータ表現やアルゴリズムに依存する従来の手法とは異なります。
具体的には、入力側では、元の形式に関係なく、2D CAD 図面を単純にラスター イメージとして扱い、そのイメージを標準 ViT モデルでエンコードします。
我々は、このようなエンコード方式が、2D 図面に課す制限を大幅に軽減しながら、ベクトル グラフィックス入力を操作する既存の方法に対して競合するパフォーマンスを達成することを示します。
出力側では、私たちのメソッドは 3D パラメトリック モデルをテキスト形式で記述する汎用言語を自動回帰的に予測します。
固定サイズのスロットを備えたドメイン固有のシーケンス表現を使用する CAD 用の他のシーケンス モデリング手法と比較して、当社のテキストベースの表現はより柔軟であり、任意の幾何学的エンティティやセマンティックまたは機能的プロパティに簡単に拡張できます。


In this paper, we present CAD2Program, a new method for reconstructing 3D parametric models from 2D CAD drawings. Our proposed method is inspired by recent successes in vision-language models (VLMs), and departs from traditional methods which rely on task-specific data representations and/or algorithms. Specifically, on the input side, we simply treat the 2D CAD drawing as a raster image, regardless of its original format, and encode the image with a standard ViT model. We show that such an encoding scheme achieves competitive performance against existing methods that operate on vector-graphics inputs, while imposing substantially fewer restrictions on the 2D drawings. On the output side, our method auto-regressively predicts a general-purpose language describing 3D parametric models in text form. Compared to other sequence modeling methods for CAD which use domain-specific sequence representations with fixed-size slots, our text-based representation is more flexible, and can be easily extended to arbitrary geometric entities and semantic or functional properties. Experimental results on a large-scale dataset of cabinet models demonstrate the effectiveness of our method.


著者 Xilin Wang,Jia Zheng,Yuanchao Hu,Hao Zhu,Qian Yu,Zihan Zhou
発行日 2024-12-17 04:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク