Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe

要約

知覚タスクのために鳥瞰図 (BEV) で強力な表現を学習することはトレンドであり、産業界と学界の両方から大きな注目を集めています。
ほとんどの自動運転アルゴリズムの従来のアプローチでは、検出、セグメンテーション、追跡などを正面図または透視図で実行します。
センサー構成がより複雑になるにつれて、さまざまなセンサーからのマルチソース情報を統合し、統一されたビューで機能を表現することが非常に重要になります。
BEV で周囲のシーンを表現することは直感的で融合しやすいため、BEV の認識にはいくつかの利点があります。
また、BEV でオブジェクトを表現することは、計画および/または制御のような後続のモジュールにとって最も望ましいことです。
BEV 認識の中心的な問題は、(a) 透視図から BEV へのビュー変換によって失われた 3D 情報を再構築する方法にあります。
(b) BEV グリッドでグラウンド トゥルース アノテーションを取得する方法。
(c) パイプラインを策定して、さまざまなソースやビューからの機能を組み込む方法。
(d) センサー構成がさまざまなシナリオで異なるため、アルゴリズムを適応させて一般化する方法。
この調査では、BEV 認識に関する最新の研究をレビューし、さまざまなソリューションの詳細な分析を提供します。
さらに、業界からのBEVアプローチのいくつかの体系的な設計も示されています。
さらに、カメラ、LiDAR、フュージョン入力など、BEV 認識タスクのパフォーマンスを向上させるための実用的なガイドブックの完全なスイートを紹介します。
最後に、この分野における今後の研究の方向性を指摘します。
このレポートがコミュニティに光を当て、BEV 認識に関するさらなる研究努力を促進することを願っています。
最新の作業を収集するためのアクティブなリポジトリを保持し、https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe でさまざまなトリックのツールボックスを提供しています。

要約(オリジナル)

Learning powerful representations in bird’s-eye-view (BEV) for perception tasks is trending and drawing extensive attention both from industry and academia. Conventional approaches for most autonomous driving algorithms perform detection, segmentation, tracking, etc., in a front or perspective view. As sensor configurations get more complex, integrating multi-source information from different sensors and representing features in a unified view come of vital importance. BEV perception inherits several advantages, as representing surrounding scenes in BEV is intuitive and fusion-friendly; and representing objects in BEV is most desirable for subsequent modules as in planning and/or control. The core problems for BEV perception lie in (a) how to reconstruct the lost 3D information via view transformation from perspective view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how to formulate the pipeline to incorporate features from different sources and views; and (d) how to adapt and generalize algorithms as sensor configurations vary across different scenarios. In this survey, we review the most recent work on BEV perception and provide an in-depth analysis of different solutions. Moreover, several systematic designs of BEV approach from the industry are depicted as well. Furthermore, we introduce a full suite of practical guidebook to improve the performance of BEV perception tasks, including camera, LiDAR and fusion inputs. At last, we point out the future research directions in this area. We hope this report would shed some light on the community and encourage more research effort on BEV perception. We keep an active repository to collect the most recent work and provide a toolbox for bag of tricks at https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe.

arxiv情報

著者 Hongyang Li,Chonghao Sima,Jifeng Dai,Wenhai Wang,Lewei Lu,Huijie Wang,Enze Xie,Zhiqi Li,Hanming Deng,Hao Tian,Xizhou Zhu,Li Chen,Yulu Gao,Xiangwei Geng,Jia Zeng,Yang Li,Jiazhi Yang,Xiaosong Jia,Bohan Yu,Yu Qiao,Dahua Lin,Si Liu,Junchi Yan,Jianping Shi,Ping Luo
発行日 2022-09-12 15:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク