要約
マルチビューカメラのみの3Dオブジェクトの検出は、主に2つの主要なパラダイムに従っています。鳥瞰図(BEV)表現を利用するか、それぞれに明確な利点があるパースペクティブビュー(PV)機能に焦点を当てています。
いくつかの最近のアプローチでは、BEVとPVを組み合わせて検討していますが、多くは部分的な融合に依存しているか、別々の検出ヘッドを維持しています。
この論文では、包括的な3D認識のために単一の検出パイプライン内のBEVおよびPV機能スペースを完全に統合する新しいフレームワークであるDuospaceNetを提案します。
当社の設計には、BEVとPV機能を統合された検出クエリに統合するデコーダーと、さまざまな機能表現を濃縮する機能強化戦略が含まれています。
さらに、Duospacenetを拡張してマルチフレーム入力を処理し、より堅牢な時間分析を可能にします。
Nuscenes Datasetでの広範な実験は、Duospacenetが3Dオブジェクト検出およびBEVマップセグメンテーションにおけるBEVベースのベースライン(例:Bevformer)とPVベースのベースライン(例:Sparse4D)の両方を上回り、提案された設計の有効性を検証することを示しています。
要約(オリジナル)
Multi-view camera-only 3D object detection largely follows two primary paradigms: exploiting bird’s-eye-view (BEV) representations or focusing on perspective-view (PV) features, each with distinct advantages. Although several recent approaches explore combining BEV and PV, many rely on partial fusion or maintain separate detection heads. In this paper, we propose DuoSpaceNet, a novel framework that fully unifies BEV and PV feature spaces within a single detection pipeline for comprehensive 3D perception. Our design includes a decoder to integrate BEV and PV features into unified detection queries, as well as a feature enhancement strategy that enriches different feature representations. In addition, DuoSpaceNet can be extended to handle multi-frame inputs, enabling more robust temporal analysis. Extensive experiments on nuScenes dataset show that DuoSpaceNet surpasses both BEV-based baselines (e.g., BEVFormer) and PV-based baselines (e.g., Sparse4D) in 3D object detection and BEV map segmentation, verifying the effectiveness of our proposed design.
arxiv情報
著者 | Zhe Huang,Yizhe Zhao,Hao Xiao,Chenyan Wu,Lingting Ge |
発行日 | 2025-04-07 18:00:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google