MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training

要約

このホワイト ペーパーでは、LiDAR ベースの自己教師あり事前トレーニングのための Masked Voxel Jigsaw and Reconstruction (MV-JAR) メソッドと、Waymo データセットで慎重に設計されたデータ効率の高い 3D オブジェクト検出ベンチマークを紹介します。
下流の 3D オブジェクト検出器のシーン – ボクセル – ポイント階層に着想を得て、シーン内のボクセル分布とボクセル内のローカル ポイント分布を考慮したマスキングおよび再構成戦略を設計します。
LiDARポイントの不均一な分布に対処するために、リバースド・ファーセスト・ボクセル・サンプリング戦略を採用し、MV-JARを提案します。MV-JARは、前述の分布をモデル化するための2つの手法を組み合わせて、優れたパフォーマンスをもたらします。
私たちの実験は、各LiDARシーケンスからさまざまなデータ比率で微調整分割を均一にサンプリングし、分割間で同様のデータ多様性をもたらす、以前のデータ効率の高い実験の限界を明らかにしました。
これに対処するために、さまざまな微調整分割のシーン シーケンスをサンプリングする新しいベンチマークを提案し、適切なモデルの収束を保証し、事前トレーニング方法のより正確な評価を提供します。
Waymo ベンチマークと KITTI データセットでの実験では、MV-JAR がさまざまなデータ スケールで 3D 検出パフォーマンスを一貫して大幅に改善し、最初からトレーニングした場合と比較して mAPH が最大 6.3% 増加することが実証されています。
コードとベンチマークは https://github.com/SmartBot-PJLab/MV-JAR で入手できます。

要約(オリジナル)

This paper introduces the Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training and a carefully designed data-efficient 3D object detection benchmark on the Waymo dataset. Inspired by the scene-voxel-point hierarchy in downstream 3D object detectors, we design masking and reconstruction strategies accounting for voxel distributions in the scene and local point distributions within the voxel. We employ a Reversed-Furthest-Voxel-Sampling strategy to address the uneven distribution of LiDAR points and propose MV-JAR, which combines two techniques for modeling the aforementioned distributions, resulting in superior performance. Our experiments reveal limitations in previous data-efficient experiments, which uniformly sample fine-tuning splits with varying data proportions from each LiDAR sequence, leading to similar data diversity across splits. To address this, we propose a new benchmark that samples scene sequences for diverse fine-tuning splits, ensuring adequate model convergence and providing a more accurate evaluation of pre-training methods. Experiments on our Waymo benchmark and the KITTI dataset demonstrate that MV-JAR consistently and significantly improves 3D detection performance across various data scales, achieving up to a 6.3% increase in mAPH compared to training from scratch. Codes and the benchmark will be available at https://github.com/SmartBot-PJLab/MV-JAR .

arxiv情報

著者 Runsen Xu,Tai Wang,Wenwei Zhang,Runjian Chen,Jinkun Cao,Jiangmiao Pang,Dahua Lin
発行日 2023-03-23 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク