要約
3D パーツのセグメンテーションは、3D 認識において重要かつ困難なタスクであり、ロボット工学、3D 生成、3D 編集などのアプリケーションで重要な役割を果たします。
最近の手法では、強力なビジョン言語モデル (VLM) を利用して 2D から 3D への知識を抽出し、ゼロショットの 3D パーツ セグメンテーションを実現しています。
ただし、これらの方法はテキスト プロンプトに依存しているため制限があり、大規模なラベルなしデータセットへの拡張性や、部分のあいまいさを処理する柔軟性が制限されます。
この作業では、テキスト プロンプトとして事前定義されたパーツ ラベル セットを必要とせずに、あらゆる 3D オブジェクトを複数の粒度でセマンティック パーツにセグメント化する、スケーラブルなゼロショット 3D パーツ セグメンテーション フレームワークである SAMPart3D を導入します。
スケーラビリティのために、テキストに依存しないビジョン基盤モデルを使用して 3D 特徴抽出バックボーンを抽出し、ラベルのない大規模な 3D データセットにスケーリングして豊富な 3D 事前分布を学習できるようにします。
柔軟性を高めるために、複数の粒度で 3D パーツをセグメンテーションするために、スケール条件付けされたパーツ認識 3D 特徴を抽出します。
スケール条件付けされたパーツ認識 3D フィーチャからセグメント化されたパーツが取得されたら、VLM を使用して、マルチビュー レンダリングに基づいて各パーツにセマンティック ラベルを割り当てます。
以前の方法と比較して、当社の SAMPart3D は、最近の大規模 3D オブジェクト データセット Objaverse に拡張でき、複雑で非日常的なオブジェクトを処理できます。
さらに、既存のベンチマークにおけるオブジェクトとパーツの多様性と複雑さの欠如に対処するために、新しい 3D パーツ セグメンテーション ベンチマークを提供します。
実験の結果、当社の SAMPart3D は既存のゼロショット 3D パーツ セグメンテーション手法を大幅に上回り、パーツ レベルの編集やインタラクティブ セグメンテーションなどのさまざまなアプリケーションを容易にできることがわかりました。
要約(オリジナル)
3D part segmentation is a crucial and challenging task in 3D perception, playing a vital role in applications such as robotics, 3D generation, and 3D editing. Recent methods harness the powerful Vision Language Models (VLMs) for 2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation. However, these methods are limited by their reliance on text prompts, which restricts the scalability to large-scale unlabeled datasets and the flexibility in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable zero-shot 3D part segmentation framework that segments any 3D object into semantic parts at multiple granularities, without requiring predefined part label sets as text prompts. For scalability, we use text-agnostic vision foundation models to distill a 3D feature extraction backbone, allowing scaling to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we distill scale-conditioned part-aware 3D features for 3D part segmentation at multiple granularities. Once the segmented parts are obtained from the scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels to each part based on the multi-view renderings. Compared to previous methods, our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse and handle complex, non-ordinary objects. Additionally, we contribute a new 3D part segmentation benchmark to address the lack of diversity and complexity of objects and parts in existing benchmarks. Experiments show that our SAMPart3D significantly outperforms existing zero-shot 3D part segmentation methods, and can facilitate various applications such as part-level editing and interactive segmentation.
arxiv情報
著者 | Yunhan Yang,Yukun Huang,Yuan-Chen Guo,Liangjun Lu,Xiaoyang Wu,Edmund Y. Lam,Yan-Pei Cao,Xihui Liu |
発行日 | 2024-11-11 17:59:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google