CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers

要約

AIアシストデザインの汎用CADエージェントであるCADアシスタントを提案します。
私たちのアプローチは、Plannerとしての強力なビジョンと大規模な言語モデル(VLLM)と、CAD固有のツールを使用したツールの高度パラダイムに基づいています。
CADアシスタントは、Python APIを介してアクセスされるFreeCADソフトウェアを装備したPythonインタープリターで繰り返し実行されるアクションを生成することにより、マルチモーダルユーザークエリをアドレス指定します。
私たちのフレームワークは、生成されたCADコマンドがジオメトリに与える影響を評価し、CAD設計の進化状態に基づいて後続のアクションを適応させることができます。
スケッチ画像パラメーターライザー、レンダリングモジュール、2D断面ジェネレーター、その他の特殊なルーチンなど、幅広いCAD固有のツールを検討します。
CADアシスタントは、複数のCADベンチマークで評価され、VLLMベースラインと監視されたタスク固有の方法を上回ります。
既存のベンチマークを超えて、多様なワークフロー全体の汎用CADソルバーとしてのツール充電VLLMの可能性を定性的に実証します。

要約(オリジナル)

We propose CAD-Assistant, a general-purpose CAD agent for AI-assisted design. Our approach is based on a powerful Vision and Large Language Model (VLLM) as a planner and a tool-augmentation paradigm using CAD-specific tools. CAD-Assistant addresses multimodal user queries by generating actions that are iteratively executed on a Python interpreter equipped with the FreeCAD software, accessed via its Python API. Our framework is able to assess the impact of generated CAD commands on geometry and adapts subsequent actions based on the evolving state of the CAD design. We consider a wide range of CAD-specific tools including a sketch image parameterizer, rendering modules, a 2D cross-section generator, and other specialized routines. CAD-Assistant is evaluated on multiple CAD benchmarks, where it outperforms VLLM baselines and supervised task-specific methods. Beyond existing benchmarks, we qualitatively demonstrate the potential of tool-augmented VLLMs as general-purpose CAD solvers across diverse workflows.

arxiv情報

著者 Dimitrios Mallis,Ahmet Serdar Karadeniz,Sebastian Cavada,Danila Rukhovich,Niki Foteinopoulou,Kseniya Cherenkova,Anis Kacem,Djamila Aouada
発行日 2025-03-10 11:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク