HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird’s Eye View

要約

ビジョンベースの鳥瞰図 (BEV) 表現は、自動運転のための新たな認識方式です。
中心的な課題は、マルチカメラ機能を備えた BEV 空間を構築することですが、これは 1 対多の不適切な問題です。
以前のすべての BEV 表現生成方法を調べたところ、そのほとんどが 2 つのタイプに分類されることがわかりました。画像ビューでの深度のモデリングと、主に暗黙的な方法による BEV 空間での高さのモデリングです。
この作業では、BEV 空間で高さを明示的にモデル化することを提案します。これは、LiDAR のような追加のデータを必要とせず、モデリングの深度と比較して任意のカメラ リグやタイプに適合させることができます。
理論的には、高さベースの方法と深さベースの方法が同等であることを証明します。
高さをモデル化することの同等性といくつかの利点を考慮して、自己再帰的な方法で高さと不確実性をモデル化する HeightFormer を提案します。
追加のデータがなくても、提案された HeightFormer は BEV の高さを正確に推定できます。
ベンチマーク結果は、HeightFormer のパフォーマンスがこれらのカメラのみの方法と比較して SOTA を達成していることを示しています。

要約(オリジナル)

Vision-based Bird’s Eye View (BEV) representation is an emerging perception formulation for autonomous driving. The core challenge is to construct BEV space with multi-camera features, which is a one-to-many ill-posed problem. Diving into all previous BEV representation generation methods, we found that most of them fall into two types: modeling depths in image views or modeling heights in the BEV space, mostly in an implicit way. In this work, we propose to explicitly model heights in the BEV space, which needs no extra data like LiDAR and can fit arbitrary camera rigs and types compared to modeling depths. Theoretically, we give proof of the equivalence between height-based methods and depth-based methods. Considering the equivalence and some advantages of modeling heights, we propose HeightFormer, which models heights and uncertainties in a self-recursive way. Without any extra data, the proposed HeightFormer could estimate heights in BEV accurately. Benchmark results show that the performance of HeightFormer achieves SOTA compared with those camera-only methods.

arxiv情報

著者 Yiming Wu,Ruixiang Li,Zequn Qin,Xinhai Zhao,Xi Li
発行日 2023-07-25 14:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク