MSSF: A 4D Radar and Camera Fusion Framework With Multi-Stage Sampling for 3D Object Detection in Autonomous Driving

要約

4Dミリ波レーダーは、近年登場した車載用センサーの1つで、従来の3Dレーダーに比べ解像度が高く、高精度な高度計測が可能です。
しかし、その点群は依然としてまばらでノイズが多いため、自動運転の要件を満たすことが困難になっています。
カメラも一般的に使用されるセンサーであり、豊富なセマンティック情報をキャプチャできます。
その結果、4D レーダーとカメラの融合により、自動運転システム向けに手頃な価格で堅牢な認識ソリューションを提供できます。
ただし、以前のレーダーとカメラの融合手法はまだ徹底的に調査されていないため、LiDAR ベースの手法と比較してパフォーマンスに大きなギャップが生じています。
具体的には、特徴のぼやけの問題を無視し、画像の意味情報と深く対話しません。
この目的を達成するために、4D レーダーとカメラに基づくシンプルだが効果的なマルチステージ サンプリング フュージョン (MSSF) ネットワークを紹介します。
一方では、点群特徴と画像特徴を深く相互作用させることができ、一般的に使用されるシングルモーダル バックボーンにプラグ アンド プレイ方式で適用できる融合ブロックを設計します。
フュージョン ブロックには、シンプル フィーチャー フュージョン (SFF) とマルチスケール変形可能フィーチャー フュージョン (MSDFF) の 2 つのタイプが含まれます。
SFF は実装が簡単ですが、MSDFF はより強力な融合能力を備えています。
一方、私たちは、ボクセルの特徴の再重み付けを使用してボクセルの前景と背景のセグメンテーションを実行し、特徴のぼやけの問題をさらに軽減するセマンティックガイド付きヘッドを提案します。
View-of-Delft (VoD) および TJ4DRadset データセットに関する広範な実験により、MSSF の有効性が実証されました。
特に、最先端の手法と比較して、MSSF は VoD データセットと TJ4DRadSet データセットの 3D 平均精度でそれぞれ 7.0% と 4.0% の向上を達成しています。
これは、VoD データセットにおける従来の LiDAR ベースの手法をも上回ります。

要約(オリジナル)

As one of the automotive sensors that have emerged in recent years, 4D millimeter-wave radar has a higher resolution than conventional 3D radar and provides precise elevation measurements. But its point clouds are still sparse and noisy, making it challenging to meet the requirements of autonomous driving. Camera, as another commonly used sensor, can capture rich semantic information. As a result, the fusion of 4D radar and camera can provide an affordable and robust perception solution for autonomous driving systems. However, previous radar-camera fusion methods have not yet been thoroughly investigated, resulting in a large performance gap compared to LiDAR-based methods. Specifically, they ignore the feature-blurring problem and do not deeply interact with image semantic information. To this end, we present a simple but effective multi-stage sampling fusion (MSSF) network based on 4D radar and camera. On the one hand, we design a fusion block that can deeply interact point cloud features with image features, and can be applied to commonly used single-modal backbones in a plug-and-play manner. The fusion block encompasses two types, namely, simple feature fusion (SFF) and multiscale deformable feature fusion (MSDFF). The SFF is easy to implement, while the MSDFF has stronger fusion abilities. On the other hand, we propose a semantic-guided head to perform foreground-background segmentation on voxels with voxel feature re-weighting, further alleviating the problem of feature blurring. Extensive experiments on the View-of-Delft (VoD) and TJ4DRadset datasets demonstrate the effectiveness of our MSSF. Notably, compared to state-of-the-art methods, MSSF achieves a 7.0% and 4.0% improvement in 3D mean average precision on the VoD and TJ4DRadSet datasets, respectively. It even surpasses classical LiDAR-based methods on the VoD dataset.

arxiv情報

著者 Hongsi Liu,Jun Liu,Guangfeng Jiang,Xin Jin
発行日 2024-11-22 15:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク