要約
カメラ、LiDAR、レーダーは、自動運転タスク用の一般的な認識センサーです。
3D オブジェクト検出の確実な予測は、これらのセンサーの融合に最適に基づいています。
これらのセンサーにはそれぞれ独自の特性があるため、その能力を賢く活用することは依然として課題です。
この論文では、マルチセンサー 3D 検出ネットワークである FADet を提案します。これは、局所的な注目モジュールに基づいてさまざまなセンサーの特性を特に研究します。
カメラ画像については、二重注意ベースのサブモジュールを提案します。
LiDAR 点群の場合、トリプル アテンション ベースのサブモジュールが利用され、レーダー ポイントの特徴には混合アテンション ベースのサブモジュールが適用されます。
ローカル注目アテンションサブモジュールを備えた当社の FADet は、カメラ、LiDAR、レーダー入力からのロングテールシーンや複雑なシーンで効果的な検出結果をもたらします。
NuScenes 検証データセットでは、FADEt は、LiDAR カメラの物体検出タスクで 71.8% の NDS と 69.0% の mAP で最先端のパフォーマンスを達成し、同時に、レーダー カメラの物体検出タスクでも 51.7% の NDS と 40.3% で最先端のパフォーマンスを達成しました。
地図。
コードは https://github.com/ZionGo6/FADet でリリースされます。
要約(オリジナル)
Camera, LiDAR and radar are common perception sensors for autonomous driving tasks. Robust prediction of 3D object detection is optimally based on the fusion of these sensors. To exploit their abilities wisely remains a challenge because each of these sensors has its own characteristics. In this paper, we propose FADet, a multi-sensor 3D detection network, which specifically studies the characteristics of different sensors based on our local featured attention modules. For camera images, we propose dual-attention-based sub-module. For LiDAR point clouds, triple-attention-based sub-module is utilized while mixed-attention-based sub-module is applied for features of radar points. With local featured attention sub-modules, our FADet has effective detection results in long-tail and complex scenes from camera, LiDAR and radar input. On NuScenes validation dataset, FADet achieves state-of-the-art performance on LiDAR-camera object detection tasks with 71.8% NDS and 69.0% mAP, at the same time, on radar-camera object detection tasks with 51.7% NDS and 40.3% mAP. Code will be released at https://github.com/ZionGo6/FADet.
arxiv情報
著者 | Ziang Guo,Zakhar Yagudin,Selamawit Asfaw,Artem Lykov,Dzmitry Tsetserukou |
発行日 | 2024-05-19 21:52:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google