OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation

要約

3D オブジェクト検出研究の現状では、注釈付き 3D データの深刻な不足、さまざまなデータ モダリティ間の大幅な差異、および統一されたアーキテクチャの欠如が、普遍性という目標に向けた進歩を妨げています。
この論文では、サイクルモダリティ伝播による統合オープン語彙 3D 検出器 \textbf{OV-Uni3DETR} を提案します。
既存の 3D 検出器と比較して、OV-Uni3DETR には明確な利点があります。 1) オープンボキャブラリー 3D 検出: トレーニング中に、さまざまなアクセス可能なデータ、特に広範な 2D 検出画像を活用して、トレーニングの多様性を高めます。
推論中に、目に見えるクラスと見えないクラスの両方を検出できます。
2) モダリティの統合: 任意のモダリティからの入力データにシームレスに対応し、異種のモダリティや欠落しているセンサー情報を含むシナリオに効果的に対処し、それによってテスト時のモダリティの切り替えをサポートします。
3) シーンの統合: 個別のセンサーによって収集された多様なシーンに統合されたマルチモーダル モデル アーキテクチャを提供します。
具体的には、前述の機能をサポートするために、2D モダリティと 3D モダリティを橋渡しする知識を伝播することを目的としたサイクル モダリティ伝播を提案します。
大規模な語彙学習からの 2D 意味論的な知識は 3D 領域での新しいクラスの発見を導き、3D 幾何学的知識は 2D 検出画像の位置特定の監視を提供します。
OV-Uni3DETR は、さまざまなシナリオで最先端のパフォーマンスを実現し、既存の方法を平均 6\% 以上上回ります。
RGB 画像のみを使用したそのパフォーマンスは、以前の点群ベースの方法と同等かそれを上回っています。
コードと事前トレーニングされたモデルは後でリリースされる予定です。

要約(オリジナル)

In the current state of 3D object detection research, the severe scarcity of annotated 3D data, substantial disparities across different data modalities, and the absence of a unified architecture, have impeded the progress towards the goal of universality. In this paper, we propose \textbf{OV-Uni3DETR}, a unified open-vocabulary 3D detector via cycle-modality propagation. Compared with existing 3D detectors, OV-Uni3DETR offers distinct advantages: 1) Open-vocabulary 3D detection: During training, it leverages various accessible data, especially extensive 2D detection images, to boost training diversity. During inference, it can detect both seen and unseen classes. 2) Modality unifying: It seamlessly accommodates input data from any given modality, effectively addressing scenarios involving disparate modalities or missing sensor information, thereby supporting test-time modality switching. 3) Scene unifying: It provides a unified multi-modal model architecture for diverse scenes collected by distinct sensors. Specifically, we propose the cycle-modality propagation, aimed at propagating knowledge bridging 2D and 3D modalities, to support the aforementioned functionalities. 2D semantic knowledge from large-vocabulary learning guides novel class discovery in the 3D domain, and 3D geometric knowledge provides localization supervision for 2D detection images. OV-Uni3DETR achieves the state-of-the-art performance on various scenarios, surpassing existing methods by more than 6\% on average. Its performance using only RGB images is on par with or even surpasses that of previous point cloud based methods. Code and pre-trained models will be released later.

arxiv情報

著者 Zhenyu Wang,Yali Li,Taichi Liu,Hengshuang Zhao,Shengjin Wang
発行日 2024-03-28 17:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク