Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud Semantic Segmentation

要約

この研究では、少数ショットおよびゼロショットの 3D 点群セマンティック セグメンテーションという困難なタスクに取り組みます。
2D コンピューター ビジョンにおける少数ショット セマンティック セグメンテーションの成功は、主に、imagenet のような大規模なデータセットでの事前トレーニングによって促進されます。
大規模な 2D データセットで事前トレーニングされた特徴抽出器は、2D の少数ショット学習に大きく役立ちます。
ただし、3D データの収集とアノテーションには多大なコストがかかるため、データセットの量とインスタンスの形式が限られているため、3D ディープ ラーニングの開発は妨げられています。
その結果、数ショットの 3D 点群セグメンテーションでは、代表的な特徴が少なくなり、クラス内特徴の変動が大きくなります。
結果として、2D 少数ショット分類/セグメンテーションの既存の一般的なプロトタイプ手法を 3D 点群セグメンテーションに直接拡張しても、2D ドメインではうまく機能しません。
この問題に対処するために、サポート点群特徴空間からクエリ点群特徴空間にプロトタイプを適応させるクエリガイド付きプロトタイプ適応 (QGPA) モジュールを提案します。
このようなプロトタイプの適応により、点群における大きな特徴のクラス内変動の問題が大幅に軽減され、数ショットの 3D セグメンテーションのパフォーマンスが大幅に向上します。
さらに、プロトタイプの表現を強化するために、プロトタイプが可能な限りサポート マスクを再構築できるようにする自己再構築 (SR) モジュールを導入します。
さらに、サポートサンプルがない場合のゼロショット 3D 点群セマンティックセグメンテーションをさらに検討します。
この目的のために、我々は意味情報としてカテゴリー単語を導入し、意味空間と視覚空間を橋渡しする意味視覚投影モデルを提案する。
私たちが提案した手法は、S3DIS ベンチマークと ScanNet ベンチマークの 2 ウェイ 1 ショット設定で、最先端のアルゴリズムをそれぞれ 7.90% と 14.82% 大幅に上回りました。
コードは https://github.com/heshuting555/PAP-FZS3D で入手できます。

要約(オリジナル)

In this work, we address the challenging task of few-shot and zero-shot 3D point cloud semantic segmentation. The success of few-shot semantic segmentation in 2D computer vision is mainly driven by the pre-training on large-scale datasets like imagenet. The feature extractor pre-trained on large-scale 2D datasets greatly helps the 2D few-shot learning. However, the development of 3D deep learning is hindered by the limited volume and instance modality of datasets due to the significant cost of 3D data collection and annotation. This results in less representative features and large intra-class feature variation for few-shot 3D point cloud segmentation. As a consequence, directly extending existing popular prototypical methods of 2D few-shot classification/segmentation into 3D point cloud segmentation won’t work as well as in 2D domain. To address this issue, we propose a Query-Guided Prototype Adaption (QGPA) module to adapt the prototype from support point clouds feature space to query point clouds feature space. With such prototype adaption, we greatly alleviate the issue of large feature intra-class variation in point cloud and significantly improve the performance of few-shot 3D segmentation. Besides, to enhance the representation of prototypes, we introduce a Self-Reconstruction (SR) module that enables prototype to reconstruct the support mask as well as possible. Moreover, we further consider zero-shot 3D point cloud semantic segmentation where there is no support sample. To this end, we introduce category words as semantic information and propose a semantic-visual projection model to bridge the semantic and visual spaces. Our proposed method surpasses state-of-the-art algorithms by a considerable 7.90% and 14.82% under the 2-way 1-shot setting on S3DIS and ScanNet benchmarks, respectively. Code is available at https://github.com/heshuting555/PAP-FZS3D.

arxiv情報

著者 Shuting He,Xudong Jiang,Wei Jiang,Henghui Ding
発行日 2023-05-23 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク