Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via Training-free Networks

要約

大規模なデータセットへの依存を減らすために、3D セグメンテーションの最近の研究は少数ショット学習に頼っています。
現在の 3D 少数ショット セマンティック セグメンテーション手法は、最初に「見えている」クラスでモデルを事前トレーニングし、次に「見えない」クラスでの汎化パフォーマンスを評価します。
ただし、事前の事前トレーニング段階では、過剰な時間オーバーヘッドが発生するだけでなく、「見えない」クラスに重大なドメイン ギャップが発生します。
これらの問題に取り組むために、私たちは効率的なトレーニング不要の少数ショット 3D セグメンテーション ネットワークである TFS3D と、さらなるトレーニングベースのバリアントである TFS3D-T を提案します。
TFS3D は、学習可能なパラメーターを一切使用せずに、三角関数の位置エンコーディングによって密な表現を抽出し、以前のトレーニングベースの方法と同等のパフォーマンスを達成します。
事前トレーニングが不要なため、TFS3D はドメイン ギャップの問題を軽減し、時間を大幅に節約できます。
TFS3D を基盤とする TFS3D-T は、軽量のクエリサポート転送アテンション (QUEST) をトレーニングするだけで済みます。これにより、少数ショット クエリとサポート データ間の相互作用が強化されます。
実験では、TFS3D-T が、S3DIS と ScanNet で従来の最先端のメソッドをそれぞれ +6.93% および +17.96% mIoU 改善し、同時にトレーニング時間を -90% 削減することを実証し、優れた有効性と効率性を示しています。

要約(オリジナル)

To reduce the reliance on large-scale datasets, recent works in 3D segmentation resort to few-shot learning. Current 3D few-shot semantic segmentation methods first pre-train the models on `seen’ classes, and then evaluate their generalization performance on `unseen’ classes. However, the prior pre-training stage not only introduces excessive time overhead, but also incurs a significant domain gap on `unseen’ classes. To tackle these issues, we propose an efficient Training-free Few-shot 3D Segmentation netwrok, TFS3D, and a further training-based variant, TFS3D-T. Without any learnable parameters, TFS3D extracts dense representations by trigonometric positional encodings, and achieves comparable performance to previous training-based methods. Due to the elimination of pre-training, TFS3D can alleviate the domain gap issue and save a substantial amount of time. Building upon TFS3D, TFS3D-T only requires to train a lightweight query-support transferring attention (QUEST), which enhances the interaction between the few-shot query and support data. Experiments demonstrate TFS3D-T improves previous state-of-the-art methods by +6.93% and +17.96% mIoU respectively on S3DIS and ScanNet, while reducing the training time by -90%, indicating superior effectiveness and efficiency.

arxiv情報

著者 Xiangyang Zhu,Renrui Zhang,Bowei He,Ziyu Guo,Jiaming Liu,Hao Dong,Peng Gao
発行日 2023-08-24 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク