DuoSpaceNet: Leveraging Both Bird’s-Eye-View and Perspective View Representations for 3D Object Detection

要約

マルチビュー カメラのみの 3D オブジェクト検出における最近の進歩は、鳥瞰図 (BEV) 3D 特徴の正確な再構成、または従来の 2D 透視図 (PV) 画像特徴のいずれかに依存しています。
どちらにも独自の長所と短所がありますが、「両方の長所」を活用するためにそれらをつなぎ合わせる方法を見つけた人はほとんどいません。
この目的を達成するために、我々は、2 つのフィーチャ表現の効果的な集約を可能にするいくつかの有用なデュオ スペース融合戦略と組み合わせて、デュオ スペース (つまり、BEV と PV) 3D 認識フレームワークを探索します。
私たちの知る限り、私たちが提案した手法である DuoSpaceNet は、2 つの異なる特徴空間を初めて活用し、nuScenes データセット上で最先端の 3D オブジェクト検出と BEV マップ セグメンテーションの結果を実現しました。

要約(オリジナル)

Recent advances in multi-view camera-only 3D object detection either rely on an accurate reconstruction of bird’s-eye-view (BEV) 3D features or on traditional 2D perspective view (PV) image features. While both have their own pros and cons, few have found a way to stitch them together in order to benefit from ‘the best of both worlds’. To this end, we explore a duo space (i.e., BEV and PV) 3D perception framework, in conjunction with some useful duo space fusion strategies that allow effective aggregation of the two feature representations. To the best of our knowledge, our proposed method, DuoSpaceNet, is the first to leverage two distinct feature spaces and achieves the state-of-the-art 3D object detection and BEV map segmentation results on nuScenes dataset.

arxiv情報

著者 Zhe Huang,Yizhe Zhao,Hao Xiao,Chenyan Wu,Lingting Ge
発行日 2024-08-29 02:09:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク