PMT-MAE: Dual-Branch Self-Supervised Learning with Distillation for Efficient Point Cloud Classification

要約

自己教師あり学習の進歩は、点群処理における特徴抽出と理解を強化するために不可欠です。
この論文では、点群分類のための新しい自己教師あり学習フレームワークである PMT-MAE (Point MLP-Transformer Masked Autoencoder) を紹介します。
PMT-MAE は、Transformer コンポーネントと MLP コンポーネントを統合して豊富な機能を取り込むデュアル ブランチ アーキテクチャを備えています。
Transformer ブランチは複雑な機能相互作用にグローバル セルフ アテンションを活用し、並列 MLP ブランチは完全に接続された共有レイヤーを通じてトークンを処理し、補完的な機能変換経路を提供します。
次に、融合メカニズムがこれらの機能を組み合わせて、包括的な 3D 表現を学習するモデルの能力を強化します。
PMT-MAE は、洗練された教師モデル Point-M2AE によって導かれ、事前トレーニング中の特徴抽出と微調整中のロジット抽出を含む抽出戦略を採用し、効果的な知識の伝達を保証します。
ModelNet40 分類タスクでは、投票戦略を採用せずに 93.6\% の精度を達成し、PMT-MAE はベースラインの Point-MAE (93.2\%) と教師の Point-M2AE (93.4\%) を上回り、識別を学習する能力を強調しています。
3D 点群表現。
さらに、このフレームワークは高い効率を示し、事前トレーニングと微調整の両方に必要なエポックはわずか 40 です。
PMT-MAE の有効性と効率性は、計算リソースが限られたシナリオに最適であり、実用的な点群解析の有望なソリューションとして位置付けられています。

要約(オリジナル)

Advances in self-supervised learning are essential for enhancing feature extraction and understanding in point cloud processing. This paper introduces PMT-MAE (Point MLP-Transformer Masked Autoencoder), a novel self-supervised learning framework for point cloud classification. PMT-MAE features a dual-branch architecture that integrates Transformer and MLP components to capture rich features. The Transformer branch leverages global self-attention for intricate feature interactions, while the parallel MLP branch processes tokens through shared fully connected layers, offering a complementary feature transformation pathway. A fusion mechanism then combines these features, enhancing the model’s capacity to learn comprehensive 3D representations. Guided by the sophisticated teacher model Point-M2AE, PMT-MAE employs a distillation strategy that includes feature distillation during pre-training and logit distillation during fine-tuning, ensuring effective knowledge transfer. On the ModelNet40 classification task, achieving an accuracy of 93.6\% without employing voting strategy, PMT-MAE surpasses the baseline Point-MAE (93.2\%) and the teacher Point-M2AE (93.4\%), underscoring its ability to learn discriminative 3D point cloud representations. Additionally, this framework demonstrates high efficiency, requiring only 40 epochs for both pre-training and fine-tuning. PMT-MAE’s effectiveness and efficiency render it well-suited for scenarios with limited computational resources, positioning it as a promising solution for practical point cloud analysis.

arxiv情報

著者 Qiang Zheng,Chao Zhang,Jian Sun
発行日 2024-09-16 16:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク