BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision

要約

パースペクティブ監視を備えた新しい鳥瞰図 (BEV) 検出器を提示します。これは、より高速に収束し、最新の画像バックボーンにより適しています。
既存の最先端の BEV 検出器は、多くの場合、VoVNet などの特定の深さの事前トレーニング済みバックボーンに結び付けられており、活況を呈している画像バックボーンと BEV 検出器の間の相乗効果を妨げています。
この制限に対処するために、遠近空間監視を導入することにより、BEV 検出器の最適化を緩和することを優先します。
この目的のために、2 段階の BEV 検出器を提案します。この検出器では、パースペクティブ ヘッドからの提案が鳥瞰図ヘッドに送られ、最終的な予測が行われます。
モデルの有効性を評価するために、監視の形式と提案された検出器の一般性に焦点を当てた広範なアブレーション研究を実施します。
提案された方法は、従来の画像バックボーンと最新の画像バックボーンの幅広いスペクトルで検証され、大規模な nuScenes データセットで新しい SoTA の結果を達成します。
コードは近日公開予定です。

要約(オリジナル)

We present a novel bird’s-eye-view (BEV) detector with perspective supervision, which converges faster and better suits modern image backbones. Existing state-of-the-art BEV detectors are often tied to certain depth pre-trained backbones like VoVNet, hindering the synergy between booming image backbones and BEV detectors. To address this limitation, we prioritize easing the optimization of BEV detectors by introducing perspective space supervision. To this end, we propose a two-stage BEV detector, where proposals from the perspective head are fed into the bird’s-eye-view head for final predictions. To evaluate the effectiveness of our model, we conduct extensive ablation studies focusing on the form of supervision and the generality of the proposed detector. The proposed method is verified with a wide spectrum of traditional and modern image backbones and achieves new SoTA results on the large-scale nuScenes dataset. The code shall be released soon.

arxiv情報

著者 Chenyu Yang,Yuntao Chen,Hao Tian,Chenxin Tao,Xizhou Zhu,Zhaoxiang Zhang,Gao Huang,Hongyang Li,Yu Qiao,Lewei Lu,Jie Zhou,Jifeng Dai
発行日 2022-11-18 18:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク