Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning

要約

先駆的な研究として、PointContrast は生の RGB-D フレームに対する対照学習を活用することで、教師なし 3D 表現学習を実施し、さまざまなダウンストリーム タスクでのその有効性を証明しています。
ただし、3D での大規模な教師なし学習の傾向は、RGB-D フレームを対照的なビューとして一致させることの非効率性と、以前の研究で言及された厄介なモード崩壊現象という 2 つのつまずきがあるため、まだ出現していません。
2 つのつまずきを経験的な足がかりに変えて、まず効率的かつ効果的な対照学習フレームワークを提案します。これは、適切にキュレーションされたデータ拡張パイプラインと実用的なビュー混合戦略によって、シーン レベルのポイント クラウドに直接対照ビューを生成します。
第二に、ポイントカラーとサーフェル法線の再構築をターゲットとする、対照的なクロスマスクの絶妙なデザインを備えた対照的な学習フレームワークでの再構築学習を紹介します。
当社の Masked Scene Contrast (MSC) フレームワークは、包括的な 3D 表現をより効率的かつ効果的に抽出できます。
事前トレーニング手順を少なくとも 3 倍高速化し、以前の作業と比較して妥協のないパフォーマンスを実現します。
さらに、MSC は複数のデータセットにまたがる大規模な 3D 事前トレーニングも可能にします。これにより、パフォーマンスがさらに向上し、いくつかのダウンストリーム タスクで最先端の微調整結果が得られます (例: ScanNet セマンティック セグメンテーション検証セットで 75.5% mIoU)
.

要約(オリジナル)

As a pioneering work, PointContrast conducts unsupervised 3D representation learning via leveraging contrastive learning over raw RGB-D frames and proves its effectiveness on various downstream tasks. However, the trend of large-scale unsupervised learning in 3D has yet to emerge due to two stumbling blocks: the inefficiency of matching RGB-D frames as contrastive views and the annoying mode collapse phenomenon mentioned in previous works. Turning the two stumbling blocks into empirical stepping stones, we first propose an efficient and effective contrastive learning framework, which generates contrastive views directly on scene-level point clouds by a well-curated data augmentation pipeline and a practical view mixing strategy. Second, we introduce reconstructive learning on the contrastive learning framework with an exquisite design of contrastive cross masks, which targets the reconstruction of point color and surfel normal. Our Masked Scene Contrast (MSC) framework is capable of extracting comprehensive 3D representations more efficiently and effectively. It accelerates the pre-training procedure by at least 3x and still achieves an uncompromised performance compared with previous work. Besides, MSC also enables large-scale 3D pre-training across multiple datasets, which further boosts the performance and achieves state-of-the-art fine-tuning results on several downstream tasks, e.g., 75.5% mIoU on ScanNet semantic segmentation validation set.

arxiv情報

著者 Xiaoyang Wu,Xin Wen,Xihui Liu,Hengshuang Zhao
発行日 2023-03-24 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク