要約
最近では、純粋なカメラベースの鳥瞰図 (BEV) 認識により、高価な Lidar センサーが取り除かれ、経済的な自動運転の実現可能なソリューションとなっています。
ただし、ほとんどの既存のBEVソリューションは、パフォーマンスが控えめであるか、車載推論を実行するためにかなりのリソースを必要とします。
この論文では、車載チップでリアルタイムのBEV認識を実行できる、Fast-BEVと呼ばれるシンプルで効果的なフレームワークを提案します。
この目標に向けて、私たちはまず経験的に、高価なビュー変換や深度表現なしで BEV 表現が十分に強力になることを発見しました。
M2BEV ベースラインから始めて、(1) オーバーフィッティングを回避するための画像と BEV スペースの両方に対する強力なデータ拡張戦略 (2) 時間情報を活用するためのマルチフレーム機能融合メカニズム (3) 最適化された展開に適した
推論を高速化するビュー変換。
実験を通じて、Fast-BEV モデル ファミリーがエッジでかなりの精度と効率を達成することを示します。
特に、当社の M1 モデル (R18@256×704) は、Tesla T4 プラットフォームで 50FPS を超えて実行でき、nuScenes 検証セットで 47.0% の NDS が得られます。
私たちの最大のモデル (R101@900×1600) は、nuScenes 検証セットで新しい最先端の 53.5% NDS を確立します。
コードは https://github.com/Sense-GVT/Fast-BEV でリリースされています。
要約(オリジナル)
Recently, the pure camera-based Bird’s-Eye-View (BEV) perception removes expensive Lidar sensors, making it a feasible solution for economical autonomous driving. However, most existing BEV solutions either suffer from modest performance or require considerable resources to execute on-vehicle inference. This paper proposes a simple yet effective framework, termed Fast-BEV, which is capable of performing real-time BEV perception on the on-vehicle chips. Towards this goal, we first empirically find that the BEV representation can be sufficiently powerful without expensive view transformation or depth representation. Starting from M2BEV baseline, we further introduce (1) a strong data augmentation strategy for both image and BEV space to avoid over-fitting (2) a multi-frame feature fusion mechanism to leverage the temporal information (3) an optimized deployment-friendly view transformation to speed up the inference. Through experiments, we show Fast-BEV model family achieves considerable accuracy and efficiency on edge. In particular, our M1 model (R18@256×704) can run over 50FPS on the Tesla T4 platform, with 47.0% NDS on the nuScenes validation set. Our largest model (R101@900×1600) establishes a new state-of-the-art 53.5% NDS on the nuScenes validation set. The code is released at: https://github.com/Sense-GVT/Fast-BEV.
arxiv情報
著者 | Bin Huang,Yangguang Li,Enze Xie,Feng Liang,Luya Wang,Mingzhu Shen,Fenggang Liu,Tianqi Wang,Ping Luo,Jing Shao |
発行日 | 2023-01-19 03:58:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google