Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning

要約

ディープニューラルネットワークモデルは、クローズドセット設定と完全なラベルで訓練されている間、3Dシーン理解において目覚ましい進歩を遂げてきた。しかし、現在の3D認識アプローチの大きなボトルネックは、多様な種類の実世界アプリケーションにおいて、学習カテゴリを超える未見の新規クラスを認識する能力を持たないことである。一方、現在の最先端の3Dシーン理解アプローチは、ニューラルネットワークを訓練するために、主に高品質なラベルを必要とするが、これは完全教師ありの方法でうまく機能するだけである。本研究では、ラベル付けされたシーンが非常に限られている場合に、3Dシーン理解に対処するための一般化されたシンプルなフレームワークを提示する。事前に訓練された視覚言語モデルから新しいカテゴリの知識を抽出するために、我々は階層的な特徴に沿った事前訓練と知識抽出戦略を提案し、大規模な視覚言語モデルから意味のある情報を抽出し、抽出する。境界情報を活用するために、領域レベルの境界予測から恩恵を受ける、境界を意識した新しいエネルギーベースの損失を提案する。潜在的なインスタンスの識別を促し、効率を保証するために、ニューラルネットワークの確信度の高い予測を用いて、複数の段階で中間的な特徴埋め込みを識別する、点群に対する教師なし領域レベル意味対比学習スキームを提案する。屋内と屋外の両方のシーンを用いた広範な実験により、データ効率の良い学習とオープンワールドの少数ショット学習の両方において、我々のアプローチの有効性を実証した。すべてのコード、モデル、データは、https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2qq-MTAP?usp=sharing で公開されている。

要約(オリジナル)

Deep neural network models have achieved remarkable progress in 3D scene understanding while trained in the closed-set setting and with full labels. However, the major bottleneck for current 3D recognition approaches is that they do not have the capacity to recognize any unseen novel classes beyond the training categories in diverse kinds of real-world applications. In the meantime, current state-of-the-art 3D scene understanding approaches primarily require high-quality labels to train neural networks, which merely perform well in a fully supervised manner. This work presents a generalized and simple framework for dealing with 3D scene understanding when the labeled scenes are quite limited. To extract knowledge for novel categories from the pre-trained vision-language models, we propose a hierarchical feature-aligned pre-training and knowledge distillation strategy to extract and distill meaningful information from large-scale vision-language models, which helps benefit the open-vocabulary scene understanding tasks. To leverage the boundary information, we propose a novel energy-based loss with boundary awareness benefiting from the region-level boundary predictions. To encourage latent instance discrimination and to guarantee efficiency, we propose the unsupervised region-level semantic contrastive learning scheme for point clouds, using confident predictions of the neural network to discriminate the intermediate feature embeddings at multiple stages. Extensive experiments with both indoor and outdoor scenes demonstrated the effectiveness of our approach in both data-efficient learning and open-world few-shot learning. All codes, models, and data are made publicly available at: https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2qq-MTAP?usp=sharing.

arxiv情報

著者 Kangcheng Liu,Yong-Jin Liu,Kai Tang,Ming Liu,Baoquan Chen
発行日 2023-12-01 15:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク