MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency

要約

マスク モデリング (MM) は、マスクされた視覚パッチを再構成することにより、さまざまな視覚の課題において広く成功を収めていることが実証されています。
しかし、大規模な 3D シーンに MM を適用することは、データの希薄性とシーンの複雑さのため、未解決の問題のままです。
2D 画像で使用されている従来のランダム マスキング パラダイムでは、3D シーンのマスクされた領域を復元するときにあいまいさの高いリスクが発生することがよくあります。
この目的を達成するために、我々は、局所統計を探索して代表的な構造化点を発見および保存し、3D シーン理解のための口実マスキング タスクを効果的に強化する、新しい情報保存再構成を提案します。
プログレッシブ再構成方法と統合された私たちの方法は、領域ジオメトリのモデリングに集中でき、マスクされた再構成のあいまいさが少なくなります。
さらに、このような段階的なマスキング率を持つシーンは、その固有の空間的一貫性を自己蒸留する役割も果たし、マスクされていない領域から一貫した表現を学習する必要があります。
マスクされた領域での情報が保存された再構成と、マスクされていない領域からの一貫性の自己蒸留をエレガントに組み合わせることで、MM-3DScene と呼ばれる統一フレームワークが得られます。
私たちは、下流のさまざまなタスクについて包括的な実験を実施します。
一貫した改善 (例: オブジェクト検出で +6.1 mAP@0.5、セマンティック セグメンテーションで +2.2% mIoU) は、私たちのアプローチの優位性を示しています。

要約(オリジナル)

Masked Modeling (MM) has demonstrated widespread success in various vision challenges, by reconstructing masked visual patches. Yet, applying MM for large-scale 3D scenes remains an open problem due to the data sparsity and scene complexity. The conventional random masking paradigm used in 2D images often causes a high risk of ambiguity when recovering the masked region of 3D scenes. To this end, we propose a novel informative-preserved reconstruction, which explores local statistics to discover and preserve the representative structured points, effectively enhancing the pretext masking task for 3D scene understanding. Integrated with a progressive reconstruction manner, our method can concentrate on modeling regional geometry and enjoy less ambiguity for masked reconstruction. Besides, such scenes with progressive masking ratios can also serve to self-distill their intrinsic spatial consistency, requiring to learn the consistent representations from unmasked areas. By elegantly combining informative-preserved reconstruction on masked areas and consistency self-distillation from unmasked areas, a unified framework called MM-3DScene is yielded. We conduct comprehensive experiments on a host of downstream tasks. The consistent improvement (e.g., +6.1 mAP@0.5 on object detection and +2.2% mIoU on semantic segmentation) demonstrates the superiority of our approach.

arxiv情報

著者 Mingye Xu,Mutian Xu,Tong He,Wanli Ouyang,Yali Wang,Xiaoguang Han,Yu Qiao
発行日 2023-06-09 11:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク