Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe

要約

知覚タスクのために鳥瞰図 (BEV) で強力な表現を学習することがトレンドになっており、産業界と学術界の両方から幅広い注目を集めています。
ほとんどの自動運転アルゴリズムに対する従来のアプローチは、正面図または斜視図で検出、セグメント化、追跡などを実行します。
センサー構成が複雑になるにつれて、さまざまなセンサーからのマルチソース情報を統合し、統合されたビューで機能を表現することが非常に重要になります。
BEV での周囲のシーンの表現は直感的で融合しやすいため、BEV の知覚にはいくつかの利点が受け継がれています。
そして、BEV でオブジェクトを表現することは、計画や制御などの後続のモジュールにとって最も望ましいことです。
BEV の知覚に関する中心的な問題は、(a) 透視図から BEV へのビュー変換を介して失われた 3D 情報をどのように再構築するかにあります。
(b) BEV グリッドでグラウンド トゥルース アノテーションを取得する方法。
(c) さまざまなソースやビューからの機能を組み込むパイプラインを作成する方法。
(d) センサー構成がさまざまなシナリオで異なる場合に、アルゴリズムをどのように適応させて一般化するか。
この調査では、BEV の認識に関する最新の研究をレビューし、さまざまなソリューションの詳細な分析を提供します。
さらに、業界による BEV アプローチの体系的な設計もいくつか描かれています。
さらに、カメラ、LiDAR、フュージョン入力など、BEV 認識タスクのパフォーマンスを向上させるための実践的なガイドブック一式を紹介します。
最後に、この分野における今後の研究の方向性を指摘します。
このレポートがコミュニティに光を当て、BEV の認識に関するさらなる研究努力を奨励することを願っています。
最新の作業を収集するためにアクティブなリポジトリを維持し、https://github.com/OpenDriveLab/Birds-eye-view-Perception でさまざまなトリックのためのツールボックスを提供します。

要約(オリジナル)

Learning powerful representations in bird’s-eye-view (BEV) for perception tasks is trending and drawing extensive attention both from industry and academia. Conventional approaches for most autonomous driving algorithms perform detection, segmentation, tracking, etc., in a front or perspective view. As sensor configurations get more complex, integrating multi-source information from different sensors and representing features in a unified view come of vital importance. BEV perception inherits several advantages, as representing surrounding scenes in BEV is intuitive and fusion-friendly; and representing objects in BEV is most desirable for subsequent modules as in planning and/or control. The core problems for BEV perception lie in (a) how to reconstruct the lost 3D information via view transformation from perspective view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how to formulate the pipeline to incorporate features from different sources and views; and (d) how to adapt and generalize algorithms as sensor configurations vary across different scenarios. In this survey, we review the most recent works on BEV perception and provide an in-depth analysis of different solutions. Moreover, several systematic designs of BEV approach from the industry are depicted as well. Furthermore, we introduce a full suite of practical guidebook to improve the performance of BEV perception tasks, including camera, LiDAR and fusion inputs. At last, we point out the future research directions in this area. We hope this report will shed some light on the community and encourage more research effort on BEV perception. We keep an active repository to collect the most recent work and provide a toolbox for bag of tricks at https://github.com/OpenDriveLab/Birds-eye-view-Perception

arxiv情報

著者 Hongyang Li,Chonghao Sima,Jifeng Dai,Wenhai Wang,Lewei Lu,Huijie Wang,Jia Zeng,Zhiqi Li,Jiazhi Yang,Hanming Deng,Hao Tian,Enze Xie,Jiangwei Xie,Li Chen,Tianyu Li,Yang Li,Yulu Gao,Xiaosong Jia,Si Liu,Jianping Shi,Dhaka Lin,Yu Qiao
発行日 2023-09-26 06:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク