Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model

要約

点群解析のための既存のTransformerベースのモデルは、2次関数的な複雑さに悩まされ、点群の解像度が低下し、情報が失われる。これに対して、新たに提案された状態空間モデル(SSM)に基づくMambaモデルは、線形な複雑さだけで、複数の領域でTransformerを上回る性能を発揮する。しかし、Mambaをそのまま採用しても、点群タスクにおいて満足のいく性能を得ることはできない。本研究では、局所特徴抽出を強化するために点群学習用に調整された状態空間モデルであるMamba3Dを提示し、優れた性能、高効率、スケーラビリティの可能性を達成する。具体的には、局所的な幾何学的特徴を抽出するために、シンプルかつ効果的なLNP(Local Norm Pooling)ブロックを提案する。さらに、より優れた大域的特徴を得るために、特徴チャネル上で動作するトークンフォワードSSMと新しいバックワードSSMの両方を備えた双方向SSM(bi-SSM)を導入する。広範な実験結果は、Mamba3DがTransformerをベースとした同等の機能を凌駕し、事前トレーニングの有無に関わらず、複数のタスクで同時に動作することを示している。特に、Mamba3DはScanObjectNNで92.6%(ゼロから学習)、ModelNet40分類タスクで95.1%(シングルモーダル事前学習あり)の総合精度を含む複数のSoTAを線形複雑度のみで達成している。我々のコードと重みはhttps://github.com/xhanxu/Mamba3D。

要約(オリジナル)

Existing Transformer-based models for point cloud analysis suffer from quadratic complexity, leading to compromised point cloud resolution and information loss. In contrast, the newly proposed Mamba model, based on state space models (SSM), outperforms Transformer in multiple areas with only linear complexity. However, the straightforward adoption of Mamba does not achieve satisfactory performance on point cloud tasks. In this work, we present Mamba3D, a state space model tailored for point cloud learning to enhance local feature extraction, achieving superior performance, high efficiency, and scalability potential. Specifically, we propose a simple yet effective Local Norm Pooling (LNP) block to extract local geometric features. Additionally, to obtain better global features, we introduce a bidirectional SSM (bi-SSM) with both a token forward SSM and a novel backward SSM that operates on the feature channel. Extensive experimental results show that Mamba3D surpasses Transformer-based counterparts and concurrent works in multiple tasks, with or without pre-training. Notably, Mamba3D achieves multiple SoTA, including an overall accuracy of 92.6% (train from scratch) on the ScanObjectNN and 95.1% (with single-modal pre-training) on the ModelNet40 classification task, with only linear complexity. Our code and weights are available at https://github.com/xhanxu/Mamba3D.

arxiv情報

著者 Xu Han,Yuan Tang,Zhaoxuan Wang,Xianzhi Li
発行日 2024-09-02 12:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク