要約
既存の路側認識システムは、公開されている大規模で高品質の 3D データセットがないため限界があります。
費用対効果の高い大規模な合成データセットの使用を検討することで、この課題に取り組み、路側の単眼 3D 検出のパフォーマンスを向上させるための実行可能なソリューションが得られます。
この研究では、希少な現実世界のデータセットを補強するために、高品質の 3D データの多様かつ実質的なコレクションを提供する TUMTraf 合成データセットを紹介します。
さらに、路側の単眼 3D 検出のための Sim2Real ドメイン転送を支援する簡潔かつ効果的なフレームワークである WARM-3D を紹介します。
私たちの方法では、安価な合成データセットと、弱い監視のために既製の 2D 検出器からの 2D ラベルを利用します。
WARM-3D がパフォーマンスを大幅に向上させ、擬似 2D 監視のみで mAP 3D がベースラインに対して +12.40% 増加することを示します。
2D GT を弱いラベルとして使用すると、WARM-3D は Oracle ベースラインに近いパフォーマンスにさえ達します。
さらに、WARM-3D は、現実世界のさまざまな環境にわたって目に見えないサンプルを認識する 3D 検出器の能力を向上させ、実用的なアプリケーションの可能性を強調しています。
要約(オリジナル)
Existing roadside perception systems are limited by the absence of publicly available, large-scale, high-quality 3D datasets. Exploring the use of cost-effective, extensive synthetic datasets offers a viable solution to tackle this challenge and enhance the performance of roadside monocular 3D detection. In this study, we introduce the TUMTraf Synthetic Dataset, offering a diverse and substantial collection of high-quality 3D data to augment scarce real-world datasets. Besides, we present WARM-3D, a concise yet effective framework to aid the Sim2Real domain transfer for roadside monocular 3D detection. Our method leverages cheap synthetic datasets and 2D labels from an off-the-shelf 2D detector for weak supervision. We show that WARM-3D significantly enhances performance, achieving a +12.40% increase in mAP 3D over the baseline with only pseudo-2D supervision. With 2D GT as weak labels, WARM-3D even reaches performance close to the Oracle baseline. Moreover, WARM-3D improves the ability of 3D detectors to unseen sample recognition across various real-world environments, highlighting its potential for practical applications.
arxiv情報
| 著者 | Xingcheng Zhou,Deyu Fu,Walter Zimmer,Mingyu Liu,Venkatnarayanan Lakshminarasimhan,Leah Strand,Alois C. Knoll | 
| 発行日 | 2024-07-30 13:32:34+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
