要約
以前の最先端の4Dレーダーカメラ融合ベースの3Dオブジェクト検出方法として、LXLは予測された画像深度分布マップとレーダー3D占有グリッドを利用して、サンプリングベースの画像ビューの変換を支援します。
ただし、深さの予測には精度と一貫性がなく、LXLの連結ベースの融合はモデルの堅牢性を妨げます。
この作業では、LXLV2を提案します。ここでは、制限を克服し、パフォーマンスを改善するために変更が加えられます。
具体的には、レーダー測定の位置誤差を考慮して、レーダーポイントを介して1対多くの深度監督戦略を考案します。ここでは、レーダー断面(RCS)値がさらに活用され、オブジェクトレベルの深さの一貫性のために監督領域を調整します。
さらに、CsaFusionという名前のチャネルと空間的注意ベースの融合モジュールが導入され、機能の適応性が向上します。
ビューオブデルフおよびTJ4Dradsetデータセットの実験結果は、提案されたLXLV2が検出精度、推論速度、堅牢性でLXLを上回ることができることを示しており、モデルの有効性を示しています。
要約(オリジナル)
As the previous state-of-the-art 4D radar-camera fusion-based 3D object detection method, LXL utilizes the predicted image depth distribution maps and radar 3D occupancy grids to assist the sampling-based image view transformation. However, the depth prediction lacks accuracy and consistency, and the concatenation-based fusion in LXL impedes the model robustness. In this work, we propose LXLv2, where modifications are made to overcome the limitations and improve the performance. Specifically, considering the position error in radar measurements, we devise a one-to-many depth supervision strategy via radar points, where the radar cross section (RCS) value is further exploited to adjust the supervision area for object-level depth consistency. Additionally, a channel and spatial attention-based fusion module named CSAFusion is introduced to improve feature adaptiveness. Experimental results on the View-of-Delft and TJ4DRadSet datasets show that the proposed LXLv2 can outperform LXL in detection accuracy, inference speed and robustness, demonstrating the effectiveness of the model.
arxiv情報
著者 | Weiyi Xiong,Zean Zou,Qiuchi Zhao,Fengchun He,Bing Zhu |
発行日 | 2025-02-20 12:31:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google