DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection

要約

自動運転車に対する認識は、効率的で、堅牢で、コスト効率が高いものでなければなりません。
しかし、カメラは厳しい気象条件に対して堅牢ではなく、LIDAR センサーは高価であり、レーダーベースの認識のパフォーマンスは依然として他のセンサーより劣っています。
この問題に対処するためにカメラとレーダーの融合手法が提案されていますが、これらはレーダー点群の典型的なまばらさによって制約され、多くの場合高度情報のないレーダー向けに設計されています。
我々は、これらの制限を克服するために設計された、Dual Perspective Fusion Transformer (DPFT) と呼ばれる新しいカメラとレーダーの融合アプローチを提案します。
私たちの方法では、処理された点群の代わりに低レベルのレーダー データ (レーダー キューブ) を利用して、可能な限り多くの情報を保存し、カメラと地平面の両方で投影を使用して、高度情報を持つレーダーを効果的に使用し、カメラ データとの融合を簡素化します。

その結果、DPFT は、悪天候条件に対する顕著な堅牢性を示し、短い推論時間を維持しながら、K-Radar データセットで最先端のパフォーマンスを実証しました。
このコードは、オープンソース ソフトウェアとして https://github.com/TUMFTM/DPFT で公開されています。

要約(オリジナル)

The perception of autonomous vehicles has to be efficient, robust, and cost-effective. However, cameras are not robust against severe weather conditions, lidar sensors are expensive, and the performance of radar-based perception is still inferior to the others. Camera-radar fusion methods have been proposed to address this issue, but these are constrained by the typical sparsity of radar point clouds and often designed for radars without elevation information. We propose a novel camera-radar fusion approach called Dual Perspective Fusion Transformer (DPFT), designed to overcome these limitations. Our method leverages lower-level radar data (the radar cube) instead of the processed point clouds to preserve as much information as possible and employs projections in both the camera and ground planes to effectively use radars with elevation information and simplify the fusion with camera data. As a result, DPFT has demonstrated state-of-the-art performance on the K-Radar dataset while showing remarkable robustness against adverse weather conditions and maintaining a low inference time. The code is made available as open-source software under https://github.com/TUMFTM/DPFT.

arxiv情報

著者 Felix Fent,Andras Palffy,Holger Caesar
発行日 2024-11-27 16:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク