A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with Traditional/Learned 3D Descriptors

要約

既存の最先端の3D点群理解手法は、完全教師ありの方法でうまく機能するだけである。我々の知る限り、セグメンテーションと検出の両方を含む、下流の高レベルの理解タスクを同時に解決する統一されたフレームワークは存在しない。本研究では、ラベルが限られている場合に、点群理解に取り組むための一般的でシンプルなフレームワークを提示する。第一の貢献は、弱い教師あり3Dシーン理解のタスクに対して、従来の3D記述子と学習済み3D記述子の広範な方法論比較を行い、我々の適応した従来のPFHベースの3D記述子が、異なるドメインにわたって優れた汎化能力を示すことを検証したことである。第二の貢献は、伝統的/学習済み3D記述子と学習済みセマンティクスの両方が提供する親和性に基づく、学習ベースの領域マージ戦略を提案したことである。このマージ処理では、低レベルの幾何学的特徴相関と高レベルの意味的特徴相関の両方を考慮する。実験結果は、我々のフレームワークが、セマンティックセグメンテーション、インスタンスセグメンテーション、物体検出を含む、3つの最も重要な弱教師付き点群理解タスクの中で、ラベル付けされた点数が非常に少ない場合でも、最高の性能を持つことを示している。領域マージ3D(RM3D)と呼ばれる我々の手法は、ScanNetデータ効率学習オンラインベンチマークや、他の4つの大規模3D理解ベンチマークにおいて、様々な実験設定下で優れた性能を示し、能動学習のような複雑な学習戦略なしに、様々な3D理解タスクにおいて、現在の技術を余裕で凌駕する。

要約(オリジナル)

Existing state-of-the-art 3D point cloud understanding methods merely perform well in a fully supervised manner. To the best of our knowledge, there exists no unified framework that simultaneously solves the downstream high-level understanding tasks including both segmentation and detection, especially when labels are extremely limited. This work presents a general and simple framework to tackle point cloud understanding when labels are limited. The first contribution is that we have done extensive methodology comparisons of traditional and learned 3D descriptors for the task of weakly supervised 3D scene understanding, and validated that our adapted traditional PFH-based 3D descriptors show excellent generalization ability across different domains. The second contribution is that we proposed a learning-based region merging strategy based on the affinity provided by both the traditional/learned 3D descriptors and learned semantics. The merging process takes both low-level geometric and high-level semantic feature correlations into consideration. Experimental results demonstrate that our framework has the best performance among the three most important weakly supervised point clouds understanding tasks including semantic segmentation, instance segmentation, and object detection even when very limited number of points are labeled. Our method, termed Region Merging 3D (RM3D), has superior performance on ScanNet data-efficient learning online benchmarks and other four large-scale 3D understanding benchmarks under various experimental settings, outperforming current arts by a margin for various 3D understanding tasks without complicated learning strategies such as active learning.

arxiv情報

著者 Kangcheng Liu
発行日 2023-12-03 02:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク