ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding

要約

Pointmambaなどの状態空間モデル(SSM)は、線形の複雑さを伴うポイントクラウドの自己監視学習、計算効率のアウトパフォーマンスの変圧器の効率的な機能抽出を有効にします。
ただし、既存のポイントマンバベースの方法は、空間的連続性とローカルセマンティック相関を破壊する複雑なトークンの順序とランダムマスキングに依存しています。
これらの課題に取り組むためにZigzagpointmambaを提案します。
私たちのアプローチのコアは、グローバルにシーケンスクラウドトークンをポイントし、空間的に隣接するポイントトークンの近接性を維持することにより空間的連続性を高める単純なジグザグスキャンパスです。
それにもかかわらず、ランダムなマスキングは、自己教師の学習におけるローカルセマンティックモデリングを損ないます。
これに対処するために、セマンティックシャムマスキング戦略(SMS)を導入します。これは、オリジナルおよび類似のトークンのローカル機能を統合することにより、回復を促進するために意味的に似たトークンを覆います。
これは、孤立したローカル機能への依存を克服し、堅牢なグローバルセマンティックモデリングを可能にします。
事前に訓練されたジグザグポイントマンバの重量は、下流タスクを大幅に改善し、パーツセグメンテーションのためにシェーペネットパートで1.59%の利益を達成し、分類の場合はModelNet40で0.4%高い精度、0.19%、1.22%、およびPP-BTのSub-bgの分類に対してそれぞれ0.72%高い精度を達成します。
scanobjectnn。
コードはhttps://anonymous.4open.science/r/zigzagpointmamba-1800/で入手できます。

要約(オリジナル)

State Space models (SSMs) such as PointMamba enable efficient feature extraction for point cloud self-supervised learning with linear complexity, outperforming Transformers in computational efficiency. However, existing PointMamba-based methods depend on complex token ordering and random masking, which disrupt spatial continuity and local semantic correlations. We propose ZigzagPointMamba to tackle these challenges. The core of our approach is a simple zigzag scan path that globally sequences point cloud tokens, enhancing spatial continuity by preserving the proximity of spatially adjacent point tokens. Nevertheless, random masking undermines local semantic modeling in self-supervised learning. To address this, we introduce a Semantic-Siamese Masking Strategy (SMS), which masks semantically similar tokens to facilitate reconstruction by integrating local features of original and similar tokens. This overcomes the dependence on isolated local features and enables robust global semantic modeling. Our pre-trained ZigzagPointMamba weights significantly improve downstream tasks, achieving a 1.59% mIoU gain on ShapeNetPart for part segmentation, a 0.4% higher accuracy on ModelNet40 for classification, and 0.19%, 1.22%, and 0.72% higher accuracies respectively for the classification tasks on the OBJ-BG, OBJ-ONLY, and PB-T50-RS subsets of ScanObjectNN. The code is available at: https://anonymous.4open.science/r/ZigzagPointMamba-1800/

arxiv情報

著者 Linshuang Diao,Dayong Ren,Sensen Song,Yurong Qian
発行日 2025-05-27 16:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク