Shelf-Supervised Multi-Modal Pre-Training for 3D Object Detection

要約

最先端の 3D オブジェクト検出器は、多くの場合、大量のラベル付きデータセットでトレーニングされます。
ただし、3D 境界ボックスに注釈を付けるには、特に LiDAR の場合、依然として法外な費用と時間がかかります。
代わりに、最近の研究では、ラベルなしデータを使用した自己教師あり事前トレーニングにより、限定されたラベルでも検出精度を向上できることが実証されています。
最新の手法は、画像領域から点群までの自己教師あり学習 (対照学習など) のベスト プラクティスを適応させています。
ただし、公的に利用可能な 3D データセットは、画像ベースの自己教師あり学習に使用されるデータセットよりもかなり小さく、多様性が低いため、その有効性は限られています。
ただし、そのようなデータは自然にマルチモーダルな方法で収集され、多くの場合画像と組み合わせて収集されることに注意してください。
自己教師付き目標のみを使用して事前トレーニングするよりも、インターネット スケールの画像データでトレーニングされた画像ベースの基礎モデルを使用して点群表現をブートストラップする方が良いと主張します。
具体的には、ペアのRGBデータとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ教師ありアプローチ(たとえば、既製の画像基礎モデルで教師あり)を提案します。
このような疑似ラベルを使用して 3D 検出器を事前トレーニングすると、以前の自己教師あり口実タスクよりも大幅に優れた半教師あり検出精度が得られます。
重要なのは、画像ベースの棚監視が、LiDAR 専用およびマルチモーダル (RGB + LiDAR) 検出器のトレーニングに役立つことを示していることです。
私たちは、nuScenes と WOD に対するアプローチの有効性を実証し、限られたデータ設定で以前の作業を大幅に改善しました。

要約(オリジナル)

State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale image data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings.

arxiv情報

著者 Mehar Khurana,Neehar Peri,Deva Ramanan,James Hays
発行日 2024-06-14 15:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク