要約
自動運転車 (AV) は、安全なナビゲーションのために一般的なクラスとまれなクラスの両方の物体を正確に検出する必要があり、Long-Tailed 3D Object Detection (LT3D) の問題が発生します。
現代の LiDAR ベースの 3D 検出器は、まばらな LiDAR ポイントだけから物体を認識することが難しいため、まれなクラスではパフォーマンスが低くなります (たとえば、CenterPoint はベビーカーで 5.1 AP しか達成しません)。
RGB 画像は、そのような曖昧さを解決するのに役立つ視覚的な証拠を提供し、RGB-LiDAR 融合の研究を動機付けます。
この論文では、独立してトレーニングされた RGB 検出器と LiDAR 検出器をアンサンブルする、シンプルな後期融合フレームワークについて詳しく説明します。
ペアになったマルチモーダル トレーニング データを必要とする最近のエンドツーエンド手法とは異なり、私たちの後期融合アプローチは大規模なユニモーダル データセットを簡単に活用でき、レア クラスの検出を大幅に向上させます。
特に、この後期融合フレームワークの 3 つの重要なコンポーネントを第一原理から検討します。これには、2D または 3D RGB 検出器をトレーニングするかどうか、RGB 検出と LiDAR 検出を 3D または投影された 2D 画像平面で一致させるかどうか、一致した検出を融合する方法が含まれます。
広範な実験により、2D RGB 検出器は 3D RGB 検出器よりも優れた認識精度を実現し、2D 画像平面でのマッチングにより深度推定エラーが軽減され、スコアを確率的にキャリブレーションと融合することで最先端の LT3D パフォーマンスが得られることが明らかになりました。
当社の後期融合アプローチは、確立された nuScenes LT3D ベンチマークで 51.4 mAP を達成し、以前の研究より 5.9 mAP 改善しました。
要約(オリジナル)
Autonomous vehicles (AVs) must accurately detect objects from both common and rare classes for safe navigation, motivating the problem of Long-Tailed 3D Object Detection (LT3D). Contemporary LiDAR-based 3D detectors perform poorly on rare classes (e.g., CenterPoint only achieves 5.1 AP on stroller) as it is difficult to recognize objects from sparse LiDAR points alone. RGB images provide visual evidence to help resolve such ambiguities, motivating the study of RGB-LiDAR fusion. In this paper, we delve into a simple late-fusion framework that ensembles independently trained RGB and LiDAR detectors. Unlike recent end-to-end methods which require paired multi-modal training data, our late-fusion approach can easily leverage large-scale uni-modal datasets, significantly improving rare class detection. In particular, we examine three critical components in this late-fusion framework from first principles, including whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections.Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy than 3D RGB detectors, matching on the 2D image plane mitigates depth estimation errors, and fusing scores probabilistically with calibration leads to state-of-the-art LT3D performance. Our late-fusion approach achieves 51.4 mAP on the established nuScenes LT3D benchmark, improving over prior work by 5.9 mAP.
arxiv情報
著者 | Yechi Ma,Neehar Peri,Shuoquan Wei,Wei Hua,Deva Ramanan,Yanan Li,Shu Kong |
発行日 | 2024-01-25 19:28:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google