ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers

要約

この論文では、点群領域における自己監視によって得られる変圧器の特性を詳しく掘り下げます。
具体的には、事前トレーニング スキームとしてマスクされた自動エンコーディングの有効性を評価し、代替案として Momentum Contrast を検討します。
私たちの研究では、学習された特徴に対するデータ量の影響を調査し、ドメイン間でのトランスフォーマーの動作の類似性を明らかにしました。
包括的な視覚化を通じて、トランスフォーマーが意味的に意味のある領域に注意を向けることを学習することが観察され、事前トレーニングが基礎となるジオメトリのより良い理解につながることを示しています。
さらに、微調整プロセスとその学習された表現への影響を調べます。
それに基づいて、モデルやトレーニング パイプラインに他の変更を導入することなく、一貫してベースラインを上回る凍結解除戦略を考案し、トランスフォーマー モデル間の分類タスクで最先端の結果を達成します。

要約(オリジナル)

In this paper we delve into the properties of transformers, attained through self-supervision, in the point cloud domain. Specifically, we evaluate the effectiveness of Masked Autoencoding as a pretraining scheme, and explore Momentum Contrast as an alternative. In our study we investigate the impact of data quantity on the learned features, and uncover similarities in the transformer’s behavior across domains. Through comprehensive visualiations, we observe that the transformer learns to attend to semantically meaningful regions, indicating that pretraining leads to a better understanding of the underlying geometry. Moreover, we examine the finetuning process and its effect on the learned representations. Based on that, we devise an unfreezing strategy which consistently outperforms our baseline without introducing any other modifications to the model or the training pipeline, and achieve state-of-the-art results in the classification task among transformer models.

arxiv情報

著者 Ioannis Romanelis,Vlassis Fotis,Konstantinos Moustakas,Adrian Munteanu
発行日 2023-06-23 17:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク