Open-Vocabulary Point-Cloud Object Detection without 3D Annotation

要約

タイトル:3Dアノテーションなしのオープン・ボキャブラリー点群物体検出

要約:
– オープン・ボキャブラリー検出の目的は、任意のテキスト記述に基づいて新しい物体を識別することです。
– この論文では、次の2つの方法により、オープン・ボキャブラリー3D点群検出に取り組みます。
  – 1)様々なオブジェクトを特定するための一般的な表現を学習できる点群検出器の開発
  – 2)テキストプロンプトに基づいて新しいオブジェクトカテゴリを分類するように、テキストと点群表現を接続することにより、
– 具体的には、2D事前学習検出器からの予測された2D境界ボックスの監視下で、点群検出器がオブジェクトを定位するために、画像の豊富な事前学習モデルに頼ります。
– さらに、私たちは画像、点群、テキストのモダリティを接続するための新しいde-biased triplet cross-modal contrastive learningを提案し、点群検出器がビジョン言語事前学習モデル、すなわちCLIPからの利益を得ることを可能にします。
– 画像とビジョン言語事前学習モデルを点群検出器に使用することの画期的な利用により、3Dアノテーションの必要なく、オープン・ボキャブラリー3D物体検出が可能になります。
– 実験により、提案手法は、ScanNetとSUN RGB-Dデータセットの広い範囲のベースラインに対して、少なくとも3.03ポイントから7.47ポイントの改善を示すことが示されています。さらに、私たちは私たちの手法がなぜ機能するのかを説明するために包括的な分析を提供しています。

要約(オリジナル)

The goal of open-vocabulary detection is to identify novel objects based on arbitrary textual descriptions. In this paper, we address open-vocabulary 3D point-cloud detection by a dividing-and-conquering strategy, which involves: 1) developing a point-cloud detector that can learn a general representation for localizing various objects, and 2) connecting textual and point-cloud representations to enable the detector to classify novel object categories based on text prompting. Specifically, we resort to rich image pre-trained models, by which the point-cloud detector learns localizing objects under the supervision of predicted 2D bounding boxes from 2D pre-trained detectors. Moreover, we propose a novel de-biased triplet cross-modal contrastive learning to connect the modalities of image, point-cloud and text, thereby enabling the point-cloud detector to benefit from vision-language pre-trained models,i.e.,CLIP. The novel use of image and vision-language pre-trained models for point-cloud detectors allows for open-vocabulary 3D object detection without the need for 3D annotations. Experiments demonstrate that the proposed method improves at least 3.03 points and 7.47 points over a wide range of baselines on the ScanNet and SUN RGB-D datasets, respectively. Furthermore, we provide a comprehensive analysis to explain why our approach works.

arxiv情報

著者 Yuheng Lu,Chenfeng Xu,Xiaobao Wei,Xiaodong Xie,Masayoshi Tomizuka,Kurt Keutzer,Shanghang Zhang
発行日 2023-04-03 08:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク