Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

要約

自動運転向けの低コストの視覚中心の 3D 認識システムは近年大幅な進歩を遂げ、高価な LiDAR ベースの手法との差が縮まりました。
カメラベースのシステムは長い検出距離や悪条件の照明や気象条件に苦戦するため、完全に信頼できる代替手段となるための主な課題は、堅牢な深度予測機能にあります。
この研究では、多様な 3D 認識タスクのための新しいカメラとレーダーの融合アーキテクチャである HyDRa を紹介します。
HyDRa は、高密度 BEV (Bird’s Eye View) ベースのアーキテクチャの原理に基づいて、2 つの異なる表現空間で相補的なカメラ機能とレーダー機能の長所を組み合わせるハイブリッド融合アプローチを導入しています。
当社の Height Association Transformer モジュールは、パース ビューにすでに含まれているレーダー機能を利用して、より堅牢で正確な深度予測を生成します。
BEV では、レーダー加重深度の一貫性によって初期のスパース表現を改良します。
HyDRa は、パブリック nuScenes データセット上で 64.2 NDS (+1.8) と 58.4 AMOTA (+1.5) というカメラとレーダーの融合に関する新しい最先端技術を実現します。
さらに、意味的に豊富で空間的に正確な新しい BEV 機能は、強力な占有表現に直接変換でき、Occ3D ベンチマークで以前のすべてのカメラベースの方法を 3.7 mIoU 上回るという驚異的な結果をもたらします。

要約(オリジナル)

Low-cost, vision-centric 3D perception systems for autonomous driving have made significant progress in recent years, narrowing the gap to expensive LiDAR-based methods. The primary challenge in becoming a fully reliable alternative lies in robust depth prediction capabilities, as camera-based systems struggle with long detection ranges and adverse lighting and weather conditions. In this work, we introduce HyDRa, a novel camera-radar fusion architecture for diverse 3D perception tasks. Building upon the principles of dense BEV (Bird’s Eye View)-based architectures, HyDRa introduces a hybrid fusion approach to combine the strengths of complementary camera and radar features in two distinct representation spaces. Our Height Association Transformer module leverages radar features already in the perspective view to produce more robust and accurate depth predictions. In the BEV, we refine the initial sparse representation by a Radar-weighted Depth Consistency. HyDRa achieves a new state-of-the-art for camera-radar fusion of 64.2 NDS (+1.8) and 58.4 AMOTA (+1.5) on the public nuScenes dataset. Moreover, our new semantically rich and spatially accurate BEV features can be directly converted into a powerful occupancy representation, beating all previous camera-based methods on the Occ3D benchmark by an impressive 3.7 mIoU.

arxiv情報

著者 Philipp Wolters,Johannes Gilg,Torben Teepe,Fabian Herzog,Anouar Laouichi,Martin Hofmann,Gerhard Rigoll
発行日 2024-03-12 15:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク