A Resource Efficient Fusion Network for Object Detection in Bird’s-Eye View using Camera and Raw Radar Data

要約

カメラは車両の周囲の環境を認識するために使用できますが、カメラとは異なり、悪天候にも耐えられる手頃な価格のレーダーセンサーが自動運転システムで人気があります。
ただし、レーダー点群はまばらで、方位角と仰角の解像度が低いため、シーンの意味論的情報や構造情報が欠如しており、その結果、一般にレーダー検出パフォーマンスが低くなります。
この作業では、レーダー データの生のレンジ ドップラー (RD) スペクトルを直接使用するため、レーダー信号処理を回避します。
私たちは、提案された包括的な画像処理パイプライン内でカメラ画像を独自に処理します。
具体的には、まずカメラ画像を Bird’s-Eye View (BEV) 極領域に変換し、カメラ エンコーダ/デコーダ アーキテクチャを使用して対応する特徴を抽出します。
結果として得られる特徴マップは、物体検出を実行するためにレーダー デコーダーから入力された RD スペクトルから復元された距離方位角 (RA) 特徴と融合されます。
私たちは、他の既存の手法との融合戦略を、精度の観点だけでなく、RADIal データセットの計算複雑さのメトリクスに関しても評価します。

要約(オリジナル)

Cameras can be used to perceive the environment around the vehicle, while affordable radar sensors are popular in autonomous driving systems as they can withstand adverse weather conditions unlike cameras. However, radar point clouds are sparser with low azimuth and elevation resolution that lack semantic and structural information of the scenes, resulting in generally lower radar detection performance. In this work, we directly use the raw range-Doppler (RD) spectrum of radar data, thus avoiding radar signal processing. We independently process camera images within the proposed comprehensive image processing pipeline. Specifically, first, we transform the camera images to Bird’s-Eye View (BEV) Polar domain and extract the corresponding features with our camera encoder-decoder architecture. The resultant feature maps are fused with Range-Azimuth (RA) features, recovered from the RD spectrum input from the radar decoder to perform object detection. We evaluate our fusion strategy with other existing methods not only in terms of accuracy but also on computational complexity metrics on RADIal dataset.

arxiv情報

著者 Kavin Chandrasekaran,Sorin Grigorescu,Gijs Dubbelman,Pavol Jancura
発行日 2024-11-20 13:26:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク