CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

要約

Open-vocabulary 3D Object Detection (OV-3DDet) は、3D シーン内のカテゴリの任意のリストからオブジェクトを検出することを目的としていますが、文献ではほとんど調査されていません。
OV-3DDet には主に 2 つの基本的な問題があります。つまり、新しいオブジェクトの位置特定と分類です。
この論文は、限られた基本カテゴリの条件の下で、統一されたフレームワークを介して 2 つの問題に同時に対処することを目的としています。
新しい 3D オブジェクトの位置を特定するために、我々は、3D ボックス ジオメトリ事前分布と 2D 意味論的オープン語彙事前分布の両方を利用して、新しいオブジェクトの擬似ボックス ラベルを生成する、効果的な 3D 新規オブジェクト発見戦略を提案します。
新しいオブジェクト ボックスを分類するために、発見された新しいボックスに基づいてクロスモーダル位置合わせモジュールをさらに開発し、3D 点群と画像/テキスト モダリティの間の特徴空間を位置合わせします。
具体的には、位置合わせプロセスにはクラスに依存しない位置合わせとクラス識別型の位置合わせが含まれており、注釈付きの基本オブジェクトだけでなく、ますます発見される新しいオブジェクトも組み込むことで、繰り返し強化された位置合わせが行われます。
新しいボックスの発見とクロスモーダル アライメントは、相互に利益を得るために共同で学習されます。
新しいオブジェクトの発見は、クロスモーダル アライメントに直接影響を与える可能性がありますが、より優れたフィーチャ アライメントによりローカライゼーション機能が向上し、新しいオブジェクトのローカライゼーションと分類を同時に行うための CoDA という名前の統合された OV-3DDet フレームワークにつながります。
2 つの困難なデータセット (つまり、SUN-RGBD と ScanNet) に対する広範な実験により、私たちの方法の有効性が実証され、最もパフォーマンスの高い代替方法と比較して mAP が 80% 大幅に向上することも示されています。
コードと事前トレーニング済みモデルはプロジェクトページで公開されています。

要約(オリジナル)

Open-vocabulary 3D Object Detection (OV-3DDet) aims to detect objects from an arbitrary list of categories within a 3D scene, which remains seldom explored in the literature. There are primarily two fundamental problems in OV-3DDet, i.e., localizing and classifying novel objects. This paper aims at addressing the two problems simultaneously via a unified framework, under the condition of limited base categories. To localize novel 3D objects, we propose an effective 3D Novel Object Discovery strategy, which utilizes both the 3D box geometry priors and 2D semantic open-vocabulary priors to generate pseudo box labels of the novel objects. To classify novel object boxes, we further develop a cross-modal alignment module based on discovered novel boxes, to align feature spaces between 3D point cloud and image/text modalities. Specifically, the alignment process contains a class-agnostic and a class-discriminative alignment, incorporating not only the base objects with annotations but also the increasingly discovered novel objects, resulting in an iteratively enhanced alignment. The novel box discovery and crossmodal alignment are jointly learned to collaboratively benefit each other. The novel object discovery can directly impact the cross-modal alignment, while a better feature alignment can, in turn, boost the localization capability, leading to a unified OV-3DDet framework, named CoDA, for simultaneous novel object localization and classification. Extensive experiments on two challenging datasets (i.e., SUN-RGBD and ScanNet) demonstrate the effectiveness of our method and also show a significant mAP improvement upon the best-performing alternative method by 80%. Codes and pre-trained models are released on the project page.

arxiv情報

著者 Yang Cao,Yihan Zeng,Hang Xu,Dan Xu
発行日 2023-10-04 16:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク