DualBEV: CNN is All You Need in View Transformation

要約

カメラベースの鳥瞰図 (BEV) 認識では、3D から 2D へのビュー変換 (VT) の採用と 2D から 3D へのビュー変換 (VT) のどちらを採用するかで悩むことがよくあります。
3D から 2D の VT は通常、リソースを大量に消費する Transformer を使用して 3D と 2D の機能間の堅牢な対応を確立しますが、2D から 3D の VT はリアルタイム アプリケーションにリフト-スプラット-シュート (LSS) パイプラインを利用するため、遠距離のデータが失われる可能性があります。
情報。
これらの制限に対処するために、両方の戦略に 3 つの確率的測定を組み込んだ共有 CNN ベースの特徴変換を利用する統合フレームワークである DualBEV を提案します。
DualBEV は、デュアルビューの対応を 1 段階で考慮することで、これらの戦略間のギャップを効果的に埋め、それぞれの強みを活かします。
私たちのメソッドは、Transformer を使用せずに最先端のパフォーマンスを実現し、nuScenes テスト セットで 55.2% の mAP と 63.4% の NDS という LSS アプローチと同等の効率を実現します。
コードは https://github.com/PeidongLi/DualBEV で公開されます。

要約(オリジナル)

Camera-based Bird’s-Eye-View (BEV) perception often struggles between adopting 3D-to-2D or 2D-to-3D view transformation (VT). The 3D-to-2D VT typically employs resource intensive Transformer to establish robust correspondences between 3D and 2D feature, while the 2D-to-3D VT utilizes the Lift-Splat-Shoot (LSS) pipeline for real-time application, potentially missing distant information. To address these limitations, we propose DualBEV, a unified framework that utilizes a shared CNN-based feature transformation incorporating three probabilistic measurements for both strategies. By considering dual-view correspondences in one-stage, DualBEV effectively bridges the gap between these strategies, harnessing their individual strengths. Our method achieves state-of-the-art performance without Transformer, delivering comparable efficiency to the LSS approach, with 55.2% mAP and 63.4% NDS on the nuScenes test set. Code will be released at https://github.com/PeidongLi/DualBEV.

arxiv情報

著者 Peidong Li,Wancheng Shen,Qihao Huang,Dixiao Cui
発行日 2024-03-08 15:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク