要約
タイトル:RegionPLC:オープンワールド3Dシーン理解のための地域ポイント言語コントラスティブ学習
要約:
– 既存の3Dシーン理解タスクは、クローズドセットのベンチマークでは高いパフォーマンスを発揮していますが、リアルワールドのアプリケーションにおいて新しいカテゴリに対応できません。
– このため、RegionPLCという地域ポイント言語コントラスティブ学習フレームワークを提案し、クローズドセットのデータセットで訓練されたモデルにオープンな認識能力を与えることを目的とします。
– 2Dファンデーションモデルをキャプションによって地域レベルの視覚言語知識を引き出すために、密なビジュアルプロンプトを提案し、さらに密な地域ポイント言語関連を構築することを提案します。
– その後、ポイント判別的コントラスティブ学習目的を設計し、密なシーン理解のためのキャプションからのポイント非依存学習を可能にします。
– ScanNet、ScanNet200、nuScenesのデータセットで広範な実験を行いました。RegionPLCは、セマンティックセグメンテーションとインスタンスセグメンテーションの双方において、先行するアノテーション付きオープンワールド3Dシーン理解アプローチに比べて平均で11.6%と6.6%高い精度を示しました。さらに、人のアノテーションがなく、トレーニングと推論のコストが低い場合でも、有望なオープンワールドの結果を示しました。コードはリリースされます。
要約(オリジナル)
Existing 3D scene understanding tasks have achieved high performance on close-set benchmarks but fail to handle novel categories in real-world applications. To this end, we propose a Regional Point-Language Contrastive learning framework, namely RegionPLC, for open-world 3D scene understanding, which equips models trained on closed-set datasets with open-vocabulary recognition capabilities. We propose dense visual prompts to elicit region-level visual-language knowledge from 2D foundation models via captioning, which further allows us to build dense regional point-language associations. Then, we design a point-discriminative contrastive learning objective to enable point-independent learning from captions for dense scene understanding. We conduct extensive experiments on ScanNet, ScanNet200, and nuScenes datasets. Our RegionPLC significantly outperforms previous base-annotated 3D open-world scene understanding approaches by an average of 11.6\% and 6.6\% for semantic and instance segmentation, respectively. It also shows promising open-world results in absence of any human annotation with low training and inference costs. Code will be released.
arxiv情報
| 著者 | Jihan Yang,Runyu Ding,Zhe Wang,Xiaojuan Qi |
| 発行日 | 2023-04-03 13:30:04+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI