Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels

要約

現在の 3D シーンのセグメンテーション方法は、手動で注釈が付けられた 3D トレーニング データセットに大きく依存しています。
このような手動の注釈は多大な労力を要し、多くの場合、きめ細かい詳細が欠如しています。
重要なのは、このデータでトレーニングされたモデルは、通常、アノテーションが付けられたクラスを超えたオブジェクト クラスを認識するのに苦労することです。つまり、オブジェクト クラスは、目に見えないドメインにうまく一般化できず、追加のドメイン固有のアノテーションが必要になります。
対照的に、2D 基礎モデルは強力な一般化と印象的なゼロショット能力を実証しており、これらの特性を 2D モデルから 3D モデルに組み込むよう促します。
したがって、3D セグメンテーション用のトレーニング ラベルを自動的に生成する画像セグメンテーション基盤モデルの使用を検討します。
我々は、高品質の 3D セグメンテーション マスクを生成するクラスに依存しない 3D シーン セグメンテーションの手法である Segment3D を提案します。
これにより、既存の 3D セグメンテーション モデル (特に細粒マスク) が改善され、新しいトレーニング データを簡単に追加してセグメンテーション パフォーマンスをさらに向上させることができます。すべて手動トレーニング ラベルは必要ありません。

要約(オリジナル)

Current 3D scene segmentation methods are heavily dependent on manually annotated 3D training datasets. Such manual annotations are labor-intensive, and often lack fine-grained details. Importantly, models trained on this data typically struggle to recognize object classes beyond the annotated classes, i.e., they do not generalize well to unseen domains and require additional domain-specific annotations. In contrast, 2D foundation models demonstrate strong generalization and impressive zero-shot abilities, inspiring us to incorporate these characteristics from 2D models into 3D models. Therefore, we explore the use of image segmentation foundation models to automatically generate training labels for 3D segmentation. We propose Segment3D, a method for class-agnostic 3D scene segmentation that produces high-quality 3D segmentation masks. It improves over existing 3D segmentation models (especially on fine-grained masks), and enables easily adding new training data to further boost the segmentation performance — all without the need for manual training labels.

arxiv情報

著者 Rui Huang,Songyou Peng,Ayca Takmaz,Federico Tombari,Marc Pollefeys,Shiji Song,Gao Huang,Francis Engelmann
発行日 2023-12-28 18:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク