Open-Vocabulary 3D Detection via Image-level Class and Debiased Cross-modal Contrastive Learning

要約

現在の点群検出手法は、汎化能力に限界があるため、実世界のオープンボキャブラリーオブジェクトを検出することが困難である。さらに、点群検出データセットに多数のクラスのオブジェクトを収集し、完全にアノテーションすることは非常に手間とコストがかかるため、既存の点群データセットのクラスが限定され、オープンボキャブラリーポイントクラウド検出を実現するための一般表現を学習するモデルの妨げとなる。我々の知る限り、オープンボキャブラリーポイントクラウド検出の問題を研究したのは我々が初めてである。我々は、点群検出のための語彙を増やすために、ラベルが充実した点群データセットを探す代わりに、ImageNet1Kを利用する。我々は、画像レベルのクラス監視を用いたOpen-Vocabulary 3D DETectorであるOV-3DETICを提案する。具体的には、認識用の画像モダリティと位置特定用の点群モダリティの2つのモダリティを利用し、未知のクラスに対する擬似ラベルを生成する。次に、学習中に画像モダリティから点群モダリティに知識を伝達するために、新しいデビアス交差モダル対照学習法を提案する。OV-3DETICは推論時の遅延を悪化させることなく、ポイントクラウド検出器をオープンボキャブラリーディテクションを実現することができるようにする。提案するOV-3DETICは、SUN-RGBDデータセットとScanNetデータセットにおいて、それぞれ少なくとも10.77 % mAP改善(絶対値)、9.56 % mAP改善(絶対値)を広い範囲のベースラインによって達成することを広範な実験により実証する。さらに、提案するOV-3DETICがなぜ有効なのかを明らかにするために、十分な実験を行う。

要約(オリジナル)

Current point-cloud detection methods have difficulty detecting the open-vocabulary objects in the real world, due to their limited generalization capability. Moreover, it is extremely laborious and expensive to collect and fully annotate a point-cloud detection dataset with numerous classes of objects, leading to the limited classes of existing point-cloud datasets and hindering the model to learn general representations to achieve open-vocabulary point-cloud detection. As far as we know, we are the first to study the problem of open-vocabulary 3D point-cloud detection. Instead of seeking a point-cloud dataset with full labels, we resort to ImageNet1K to broaden the vocabulary of the point-cloud detector. We propose OV-3DETIC, an Open-Vocabulary 3D DETector using Image-level Class supervision. Specifically, we take advantage of two modalities, the image modality for recognition and the point-cloud modality for localization, to generate pseudo labels for unseen classes. Then we propose a novel debiased cross-modal contrastive learning method to transfer the knowledge from image modality to point-cloud modality during training. Without hurting the latency during inference, OV-3DETIC makes the point-cloud detector capable of achieving open-vocabulary detection. Extensive experiments demonstrate that the proposed OV-3DETIC achieves at least 10.77 % mAP improvement (absolute value) and 9.56 % mAP improvement (absolute value) by a wide range of baselines on the SUN-RGBD dataset and ScanNet dataset, respectively. Besides, we conduct sufficient experiments to shed light on why the proposed OV-3DETIC works.

arxiv情報

著者 Yuheng Lu,Chenfeng Xu,Xiaobao Wei,Xiaodong Xie,Masayoshi Tomizuka,Kurt Keutzer,Shanghang Zhang
発行日 2022-07-05 12:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク