SeRP: Self-Supervised Representation Learning Using Perturbed Point Clouds

要約

3D 点群の自己教師あり学習のフレームワークである SeRP を紹介します。
SeRP は、乱れた点群または破損した点群を入力として受け取り、破損することなく元の点群を再構築することを目的とするエンコーダー/デコーダー アーキテクチャで構成されています。
エンコーダーは、低次元の部分空間で点群の高レベルの潜在表現を学習し、元の構造を復元します。
この作業では、トランスフォーマーと PointNet ベースのオートエンコーダーを使用しました。
提案されたフレームワークは、位置情報の漏洩や不均一な情報密度が発生しやすいトランスフォーマー ベースのマスク オートエンコーダーの制限の一部にも対処します。
完全な ShapeNet データセットでモデルをトレーニングし、下流の分類タスクとして ModelNet40 で評価しました。
事前トレーニング済みのモデルは、ゼロからトレーニングしたネットワークよりも 0.5 ~ 1% 高い分類精度を達成したことを示しました。
さらに、VASP: Vector-Quantized Autoencoder for Self-supervised Representation Learning for Point Clouds も提案しました。これは、Transformer ベースのオートエンコーダーの離散表現学習にベクトル量子化を採用しています。

要約(オリジナル)

We present SeRP, a framework for Self-Supervised Learning of 3D point clouds. SeRP consists of encoder-decoder architecture that takes perturbed or corrupted point clouds as inputs and aims to reconstruct the original point cloud without corruption. The encoder learns the high-level latent representations of the points clouds in a low-dimensional subspace and recovers the original structure. In this work, we have used Transformers and PointNet-based Autoencoders. The proposed framework also addresses some of the limitations of Transformers-based Masked Autoencoders which are prone to leakage of location information and uneven information density. We trained our models on the complete ShapeNet dataset and evaluated them on ModelNet40 as a downstream classification task. We have shown that the pretrained models achieved 0.5-1% higher classification accuracies than the networks trained from scratch. Furthermore, we also proposed VASP: Vector-Quantized Autoencoder for Self-supervised Representation Learning for Point Clouds that employs Vector-Quantization for discrete representation learning for Transformer-based autoencoders.

arxiv情報

著者 Siddhant Garg,Mudit Chaudhary
発行日 2022-09-13 15:22:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク