Multi-camera Bird’s Eye View Perception for Autonomous Driving

要約

ほとんどの自動運転システムは、複数のカメラ、レーダー、LiDAR などの多様なセンサー セットで構成されており、近い地域から遠い地域まで 360 度完全にカバーします。
3D で直接測定するレーダーや LiDAR とは異なり、カメラは固有の深さの曖昧さを伴う 2D 透視投影をキャプチャします。
ただし、最適な経路計画を立てるために他のエージェントや構造の空間推論を可能にするためには、3D で知覚出力を生成することが不可欠です。
3D 空間は通常、高さの寸法に対応する関連性の低い Z 座標を省略することで BEV 空間に単純化されます。カメラ画像から目的の BEV 表現を実現するための最も基本的なアプローチは、平らな地面を想定した IPM です。
新しい車両で非常に一般的なサラウンド ビジョン システムは、IPM 原理を使用して BEV 画像を生成し、ディスプレイ上でドライバーに表示します。
ただし、この単純すぎる変換方法によって深刻な歪みが生じるため、このアプローチは自動運転には適していません。
より最近のアプローチでは、ディープ ニューラル ネットワークを使用して BEV 空間に直接出力します。
これらの方法は、ネットワーク内で暗黙的または明示的に幾何学的制約を使用して、カメラ画像を BEV 空間に変換します。
CNN にはより多くのコンテキスト情報があり、学習可能な変換はより柔軟で画像コンテンツに適応できるため、深層学習ベースの手法は BEV 変換の新しいベンチマークを設定し、最先端のパフォーマンスを実現します。
まず、この章では、オブジェクト表現を BEV 空間に直接出力するマルチカメラベースの DNN (ディープ ニューラル ネットワーク) モデルの現代のトレンドについて説明します。
次に、このアプローチが効果的なセンサー フュージョンと、状況分析や予測などの下流タスクの結合にどのように拡張できるかについて説明します。
最後に、BEV の認識における課題と未解決の問題を示します。

要約(オリジナル)

Most automated driving systems comprise a diverse sensor set, including several cameras, Radars, and LiDARs, ensuring a complete 360\deg coverage in near and far regions. Unlike Radar and LiDAR, which measure directly in 3D, cameras capture a 2D perspective projection with inherent depth ambiguity. However, it is essential to produce perception outputs in 3D to enable the spatial reasoning of other agents and structures for optimal path planning. The 3D space is typically simplified to the BEV space by omitting the less relevant Z-coordinate, which corresponds to the height dimension.The most basic approach to achieving the desired BEV representation from a camera image is IPM, assuming a flat ground surface. Surround vision systems that are pretty common in new vehicles use the IPM principle to generate a BEV image and to show it on display to the driver. However, this approach is not suited for autonomous driving since there are severe distortions introduced by this too-simplistic transformation method. More recent approaches use deep neural networks to output directly in BEV space. These methods transform camera images into BEV space using geometric constraints implicitly or explicitly in the network. As CNN has more context information and a learnable transformation can be more flexible and adapt to image content, the deep learning-based methods set the new benchmark for BEV transformation and achieve state-of-the-art performance. First, this chapter discusses the contemporary trends of multi-camera-based DNN (deep neural network) models outputting object representations directly in the BEV space. Then, we discuss how this approach can extend to effective sensor fusion and coupling downstream tasks like situation analysis and prediction. Finally, we show challenges and open problems in BEV perception.

arxiv情報

著者 David Unger,Nikhil Gosala,Varun Ravi Kumar,Shubhankar Borse,Abhinav Valada,Senthil Yogamani
発行日 2023-09-19 10:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク