Transferring CLIP’s Knowledge into Zero-Shot Point Cloud Semantic Segmentation

要約

従来の 3D セグメンテーション手法では、トレーニング セットに出現するクラスの固定範囲しか認識できず、汎化能力が欠如しているため、現実世界のシナリオでの適用が制限されます。
CLIP などの大規模な視覚言語の事前トレーニング済みモデルは、ゼロショット 2D ビジョン タスクで汎化能力を示していますが、3D セマンティック セグメンテーションに直接適用することはまだできません。
この研究では、ゼロショット点群セマンティック セグメンテーションに焦点を当て、CLIP に含まれる視覚言語知識を特徴レベルと出力レベルの両方で点群エンコーダに転送するためのシンプルかつ効果的なベースラインを提案します。
効果的な知識伝達のために、2D エンコーダーと 3D エンコーダーの間で機能レベルと出力レベルの両方の調整が行われます。
具体的には、特徴レベルの調整のためにグローバル セマンティックおよびローカル位置の観点から 2D および 3D 特徴を調整するために、多粒度クロスモーダル機能調整 (MCFA) モジュールが提案されています。
出力レベルでは、CLIP 画像エンコーダーの動作を模倣するための 3D セグメンテーション モデルの監視として、事前トレーニングされた CLIP モデルを使用して、目に見えないクラスのピクセルごとの疑似ラベルが抽出されます。
点群セグメンテーションの 2 つの一般的なベンチマークに対して広範な実験が行われています。
私たちの方法は、ゼロショット設定(SemanticKITTI で +29.2% mIoU、nuScenes で 31.8% mIoU)の下で以前の最先端の方法を大幅に上回り、さらにアノテーションなしの点群セマンティック セグメンテーション設定で有望な結果を達成しました。
ラベル効率的な学習には大きな可能性があります。

要約(オリジナル)

Traditional 3D segmentation methods can only recognize a fixed range of classes that appear in the training set, which limits their application in real-world scenarios due to the lack of generalization ability. Large-scale visual-language pre-trained models, such as CLIP, have shown their generalization ability in the zero-shot 2D vision tasks, but are still unable to be applied to 3D semantic segmentation directly. In this work, we focus on zero-shot point cloud semantic segmentation and propose a simple yet effective baseline to transfer the visual-linguistic knowledge implied in CLIP to point cloud encoder at both feature and output levels. Both feature-level and output-level alignments are conducted between 2D and 3D encoders for effective knowledge transfer. Concretely, a Multi-granularity Cross-modal Feature Alignment (MCFA) module is proposed to align 2D and 3D features from global semantic and local position perspectives for feature-level alignment. For the output level, per-pixel pseudo labels of unseen classes are extracted using the pre-trained CLIP model as supervision for the 3D segmentation model to mimic the behavior of the CLIP image encoder. Extensive experiments are conducted on two popular benchmarks of point cloud segmentation. Our method outperforms significantly previous state-of-the-art methods under zero-shot setting (+29.2% mIoU on SemanticKITTI and 31.8% mIoU on nuScenes), and further achieves promising results in the annotation-free point cloud semantic segmentation setting, showing its great potential for label-efficient learning.

arxiv情報

著者 Yuanbin Wang,Shaofei Huang,Yulu Gao,Zhen Wang,Rui Wang,Kehua Sheng,Bo Zhang,Si Liu
発行日 2023-12-12 12:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク