Bidirectional Propagation for Cross-Modal 3D Object Detection

要約

タイトル:Bidirectional Propagation for Cross-Modal 3D Object Detection
要約:
・交差モーダル3Dオブジェクト検出において、2D画像のピクセルから3D LiDARポイントへの細かい特徴伝播が採用され、機能向上が広く明らかになっています。
・しかし、2Dと3Dの領域間での異種特徴伝搬の潜在的な可能性は十分に探究されていません。
・この論文では、既存のピクセルからポイントへの特徴伝播とは対照的に、逆向きのポイントごとの特徴が2D画像の枝に逆流することを調査しました。
・したがって、2D画像枝から逆伝搬された勾配を利用して、LiDARポイントクラウドで動作する3Dバックボーンネットワークの表現能力を向上させることができました。
・それから、ピクセルからポイント、ポイントからピクセルの情報伝搬メカニズムを組み合わせ、BiProDetと呼ばれる双方向特徴伝播フレームワークを構築しました。
・また、構造設計に加えて、2D画像ブランチのトレーニングのための新たな2D補助タスクである正規化されたローカル座標マップ推定を提案し、画像モダリティからローカル空間意識特徴の学習を促進し、全体の3D検出性能を暗黙的に向上させました。
・詳細な実験と離脱研究が、我々の方法の有効性を検証しています。
・特に、提出時点でKITTIベンチマークのサイクリストクラスで$\mathbf{1^{\mathrm{st}}}$にランクされています。
・ソースコードはhttps://github.com/Eaphan/BiProDetで利用可能です。

要約(オリジナル)

Recent works have revealed the superiority of feature-level fusion for cross-modal 3D object detection, where fine-grained feature propagation from 2D image pixels to 3D LiDAR points has been widely adopted for performance improvement. Still, the potential of heterogeneous feature propagation between 2D and 3D domains has not been fully explored. In this paper, in contrast to existing pixel-to-point feature propagation, we investigate an opposite point-to-pixel direction, allowing point-wise features to flow inversely into the 2D image branch. Thus, when jointly optimizing the 2D and 3D streams, the gradients back-propagated from the 2D image branch can boost the representation ability of the 3D backbone network working on LiDAR point clouds. Then, combining pixel-to-point and point-to-pixel information flow mechanisms, we construct an bidirectional feature propagation framework, dubbed BiProDet. In addition to the architectural design, we also propose normalized local coordinates map estimation, a new 2D auxiliary task for the training of the 2D image branch, which facilitates learning local spatial-aware features from the image modality and implicitly enhances the overall 3D detection performance. Extensive experiments and ablation studies validate the effectiveness of our method. Notably, we rank $\mathbf{1^{\mathrm{st}}}$ on the highly competitive KITTI benchmark on the cyclist class by the time of submission. The source code is available at https://github.com/Eaphan/BiProDet.

arxiv情報

著者 Yifan Zhang,Qijian Zhang,Junhui Hou,Yixuan Yuan,Guoliang Xing
発行日 2023-05-02 09:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク