要約
近年、Bird’s-Eye View (BEV) 表現に基づく知覚タスクがますます注目を集めており、BEV 表現は次世代の自動運転車 (AV) 知覚の基盤として有望です。
ただし、既存の BEV ソリューションのほとんどは、車載推論を実行するためにかなりのリソースを必要とするか、パフォーマンスがそれほど高くありません。
この論文では、車載チップ上でより高速な BEV 認識を実行できる、Fast-BEV と呼ばれるシンプルかつ効果的なフレームワークを提案します。
この目標に向けて、私たちはまず、BEV 表現が、高価なトランスフォーマー ベースの変換や深度表現を使用しなくても十分に強力であることを経験的に発見しました。
私たちの Fast-BEV は 5 つの部分で構成されています。私たちは、(1) 2D 画像特徴を 3D ボクセル空間に高速で転送する軽量で展開しやすいビュー変換、(2) マルチスケール情報を活用してより良い結果を得るマルチスケール画像エンコーダーを新たに提案します。
(3) 車載推論を高速化するために特に設計された効率的な BEV エンコーダ。
さらに、(4) 過剰適合を回避するための画像と BEV 空間の両方に対する強力なデータ拡張戦略、(5) 時間情報を活用するためのマルチフレーム特徴融合メカニズムを導入します。
実験によると、2080Ti プラットフォーム上で、当社の R50 モデルは、nuScenes 検証セットで 52.6 FPS および 47.3% NDS を実行でき、BEVDepth-R50 モデルの 41.3 FPS および 47.5% NDS、BEVDet4D-R50 の 30.2 FPS および 45.7% NDS を上回っています。
モデル。
当社の最大のモデル (R101@900×1600) は、nuScenes 検証セットで競争力のある 53.5% の NDS を確立しました。
さらに、現在普及している車載用チップを対象に、かなりの精度と効率を備えたベンチマークを開発します。
コードは https://github.com/Sense-GVT/Fast-BEV でリリースされています。
要約(オリジナル)
Recently, perception task based on Bird’s-Eye View (BEV) representation has drawn more and more attention, and BEV representation is promising as the foundation for next-generation Autonomous Vehicle (AV) perception. However, most existing BEV solutions either require considerable resources to execute on-vehicle inference or suffer from modest performance. This paper proposes a simple yet effective framework, termed Fast-BEV , which is capable of performing faster BEV perception on the on-vehicle chips. Towards this goal, we first empirically find that the BEV representation can be sufficiently powerful without expensive transformer based transformation nor depth representation. Our Fast-BEV consists of five parts, We novelly propose (1) a lightweight deployment-friendly view transformation which fast transfers 2D image feature to 3D voxel space, (2) an multi-scale image encoder which leverages multi-scale information for better performance, (3) an efficient BEV encoder which is particularly designed to speed up on-vehicle inference. We further introduce (4) a strong data augmentation strategy for both image and BEV space to avoid over-fitting, (5) a multi-frame feature fusion mechanism to leverage the temporal information. Through experiments, on 2080Ti platform, our R50 model can run 52.6 FPS with 47.3% NDS on the nuScenes validation set, exceeding the 41.3 FPS and 47.5% NDS of the BEVDepth-R50 model and 30.2 FPS and 45.7% NDS of the BEVDet4D-R50 model. Our largest model (R101@900×1600) establishes a competitive 53.5% NDS on the nuScenes validation set. We further develop a benchmark with considerable accuracy and efficiency on current popular on-vehicle chips. The code is released at: https://github.com/Sense-GVT/Fast-BEV.
arxiv情報
著者 | Yangguang Li,Bin Huang,Zeren Chen,Yufeng Cui,Feng Liang,Mingzhu Shen,Fenggang Liu,Enze Xie,Lu Sheng,Wanli Ouyang,Jing Shao |
発行日 | 2024-07-09 17:07:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google