Long-Tailed 3D Detection via 2D Late Fusion

要約

Long-Tailed 3D Object Detection (LT3D) は、一般的なクラスとまれなクラスの両方からオブジェクトを正確に検出するという問題に対処します。
現在のマルチモーダル検出器は、レアクラスで低い AP を達成します (たとえば、CMT はベビーカーで 9.4 AP しか達成しません)。これはおそらく、重大なクラスの不均衡で検出器をエンドツーエンドでトレーニングすることが困難なためと考えられます。
この制限に対処するために、個別にトレーニングされたユニモーダル LiDAR 検出器と RGB 検出器をアンサンブルするシンプルな後期融合フレームワークを詳しく調べます。
重要なのは、このような後期融合フレームワークを使用すると、ペアになったマルチモーダル トレーニング データを必要とする一般的なマルチモーダル検出器とは異なり、大規模なユニモーダル データセット (レア クラスのより多くの例を含む) を活用して、より優れたユニモーダル RGB 検出器をトレーニングできることです。
特に、私たちのアプローチは、レアクラスの検出を以前の研究と比べて 7.2% 大幅に改善しました。
さらに、シンプルな後期融合アプローチの 3 つの重要なコンポーネントを第一原理から検証し、2D または 3D RGB 検出器をトレーニングするかどうか、RGB および LiDAR 検出を 3D または投影された 2D 画像平面で融合用に一致させるかどうか、および融合方法を調査します。
一致した検出。
広範な実験により、2D RGB 検出器は 3D RGB 検出器よりも稀なクラスに対して優れた認識精度を達成し、2D 画像平面でのマッチングにより深度推定エラーが軽減されることが明らかになりました。
当社の後期融合アプローチは、確立された nuScenes LT3D ベンチマークで 51.4 mAP を達成し、以前の研究より 5.9 mAP 改善しました。

要約(オリジナル)

Long-Tailed 3D Object Detection (LT3D) addresses the problem of accurately detecting objects from both common and rare classes. Contemporary multi-modal detectors achieve low AP on rare-classes (e.g., CMT only achieves 9.4 AP on stroller), presumably because training detectors end-to-end with significant class imbalance is challenging. To address this limitation, we delve into a simple late-fusion framework that ensembles independently trained uni-modal LiDAR and RGB detectors. Importantly, such a late-fusion framework allows us to leverage large-scale uni-modal datasets (with more examples for rare classes) to train better uni-modal RGB detectors, unlike prevailing multimodal detectors that require paired multi-modal training data. Notably, our approach significantly improves rare-class detection by 7.2% over prior work. Further, we examine three critical components of our simple late-fusion approach from first principles and investigate whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane for fusion, and how to fuse matched detections. Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy for rare classes than 3D RGB detectors and matching on the 2D image plane mitigates depth estimation errors. Our late-fusion approach achieves 51.4 mAP on the established nuScenes LT3D benchmark, improving over prior work by 5.9 mAP!

arxiv情報

著者 Yechi Ma,Neehar Peri,Shuoquan Wei,Wei Hua,Deva Ramanan,Yanan Li,Shu Kong
発行日 2024-06-14 14:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク