要約
既存の3Dシーン理解タスクは、クローズドセットベンチマークにおいて高い性能を達成しているが、実世界アプリケーションにおける新しいカテゴリを扱うことができない。このため、我々は、オープンワールドの3Dシーン理解のためのRegional Point-Language Contrastive Learningフレームワーク、すなわちRegionPLCを提案する。このフレームワークは、クローズドなデータセットで訓練されたモデルに、オープンな語彙認識能力を装備する。我々は、キャプションを介して2D基礎モデルから領域レベルの視覚言語知識を引き出すために、高密度な視覚的プロンプトを提案し、これによりさらに高密度な領域点言語関連付けを構築することができる。次に、高密度なシーン理解のために、キャプションから点に依存しない学習を可能にする、点識別的な対比学習目的を設計する。我々は、ScanNet、ScanNet200、nuScenesデータセットを用いて広範な実験を行った。我々のRegionPLCは、従来のベースアノテーションによる3Dオープンワールドシーン理解アプローチを、意味分割とインスタンス分割において、それぞれ平均11.6%、6.6%大幅に上回る。また、低い学習・推論コストで、人間によるアノテーションがないオープンワールドでも有望な結果を示す。コードを公開予定。
要約(オリジナル)
Existing 3D scene understanding tasks have achieved high performance on close-set benchmarks but fail to handle novel categories in real-world applications. To this end, we propose a Regional Point-Language Contrastive learning framework, namely RegionPLC, for open-world 3D scene understanding, which equips models trained on closed-set datasets with open-vocabulary recognition capabilities. We propose dense visual prompts to elicit region-level visual-language knowledge from 2D foundation models via captioning, which further allows us to build dense regional point-language associations. Then, we design a point-discriminative contrastive learning objective to enable point-independent learning from captions for dense scene understanding. We conduct extensive experiments on ScanNet, ScanNet200, and nuScenes datasets. Our RegionPLC significantly outperforms previous base-annotated 3D open-world scene understanding approaches by an average of 11.6\% and 6.6\% for semantic and instance segmentation, respectively. It also shows promising open-world results in absence of any human annotation with low training and inference costs. Code will be released.
arxiv情報
著者 | Jihan Yang,Runyu Ding,Zhe Wang,Xiaojuan Qi |
発行日 | 2023-07-03 04:52:17+00:00 |
arxivサイト | arxiv_id(pdf) |