CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation

要約

正確で編集可能な3D CADモデルの効率的な作成は、エンジニアリング設計において重要であり、製品革新のコストと市場までの時間に大きな影響を与えます。
現在の手動ワークフローは非常に時間がかかり、幅広いユーザーの専門知識を要求しています。
AI駆動型CAD世代の最近の開発は約束を示していますが、既存のモデルは、CAD操作の不完全な表現、実際の画像に一般化できないこと、および低い出力の精度によって制限されています。
このペーパーでは、視覚入力から直接編集可能なCADコード(CADQUERY PYTHON)を生成するために明示的に微調整されたオープンソースビジョン言語モデル(VLM)であるCAD-Coderを紹介します。
163k以上のCADモデル画像とコードペアで構成されるGENCADコードを作成した新しいデータセットを活用すると、CADコダーは、GPT-4.5やQWEN2.5-VL-72Bなどの最先端のVLMベースラインを上回り、100%有効なシンタックスレートと3Dソリッドの類似性を達成します。
特に、当社のVLMは一般化可能性のいくつかの兆候を示し、実際の画像からCADコードを正常に生成し、微調整中に目にされていないCAD操作を実行します。
CADコダーのパフォーマンスと適応性は、エンジニアとデザイナーのCADワークフローを合理化するためにコード上で微調整されたVLMSの可能性を強調しています。
CAD-Coderは、https://github.com/anniedoris/cad-coderで公開されています。

要約(オリジナル)

Efficient creation of accurate and editable 3D CAD models is critical in engineering design, significantly impacting cost and time-to-market in product innovation. Current manual workflows remain highly time-consuming and demand extensive user expertise. While recent developments in AI-driven CAD generation show promise, existing models are limited by incomplete representations of CAD operations, inability to generalize to real-world images, and low output accuracy. This paper introduces CAD-Coder, an open-source Vision-Language Model (VLM) explicitly fine-tuned to generate editable CAD code (CadQuery Python) directly from visual input. Leveraging a novel dataset that we created–GenCAD-Code, consisting of over 163k CAD-model image and code pairs–CAD-Coder outperforms state-of-the-art VLM baselines such as GPT-4.5 and Qwen2.5-VL-72B, achieving a 100% valid syntax rate and the highest accuracy in 3D solid similarity. Notably, our VLM demonstrates some signs of generalizability, successfully generating CAD code from real-world images and executing CAD operations unseen during fine-tuning. The performance and adaptability of CAD-Coder highlights the potential of VLMs fine-tuned on code to streamline CAD workflows for engineers and designers. CAD-Coder is publicly available at: https://github.com/anniedoris/CAD-Coder.

arxiv情報

著者 Anna C. Doris,Md Ferdous Alam,Amin Heyrani Nobari,Faez Ahmed
発行日 2025-05-20 17:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク