Exploring contextual modeling with linear complexity for point cloud segmentation

要約

点群セグメンテーションは 3D 理解における重要なトピックであり、従来は CNN または Transformer を使用して取り組んできました。
最近、Mamba が有望な代替手段として浮上し、Transformer の注意メカニズムに伴う 2 次の複雑さを排除した、効率的な長距離コンテキスト モデリング機能を提供します。
しかし、Mamba の可能性にもかかわらず、初期の取り組みはすべて、最高の CNN ベースおよび Transformer ベースの手法よりも優れたパフォーマンスを達成することができませんでした。
この研究では、効果的かつ効率的な点群セグメンテーション アーキテクチャの主要コンポーネントを特定することで、この課題に対処します。
具体的には、1) 空間的局所性と堅牢なコンテキストの理解が強力なパフォーマンスに不可欠であること、2) Mamba は線形計算の複雑さを特徴としており、Transformers と比較して優れたデータと推論効率を提供しながら、強力なコンテキストの理解を実現できることを示します。
さらに、標準の Mamba の 2 つの主要な欠点を特定することで、点群セグメンテーションに特化して標準 Mamba をさらに強化します。
まず、元の Mamba で強制された因果関係は、そのような依存関係を持たない点群の処理には適していません。
第 2 に、その単方向スキャン戦略により方向性のバイアスが生じ、順序付けされていない点群の完全なコンテキストを単一パスでキャプチャする能力が妨げられます。
これらの問題に対処するために、因果的畳み込みを慎重に除去し、空間関係をキャプチャするモデルの機能を強化する新しい Strided 双方向 SSM を導入します。
私たちの取り組みは、CNN と Mamba の長所を効果的に統合する、MEEPO という新しいアーキテクチャの開発で最高潮に達します。
MEEPO は、複数の主要なベンチマーク データセットにおいて、以前の最先端の手法である PTv3 を最大 +0.8 mIoU 上回り、42.1% 高速で、5.53 倍のメモリ効率を実現します。

要約(オリジナル)

Point cloud segmentation is an important topic in 3D understanding that has traditionally has been tackled using either the CNN or Transformer. Recently, Mamba has emerged as a promising alternative, offering efficient long-range contextual modeling capabilities without the quadratic complexity associated with Transformer’s attention mechanisms. However, despite Mamba’s potential, early efforts have all failed to achieve better performance than the best CNN-based and Transformer-based methods. In this work, we address this challenge by identifying the key components of an effective and efficient point cloud segmentation architecture. Specifically, we show that: 1) Spatial locality and robust contextual understanding are critical for strong performance, and 2) Mamba features linear computational complexity, offering superior data and inference efficiency compared to Transformers, while still being capable of delivering strong contextual understanding. Additionally, we further enhance the standard Mamba specifically for point cloud segmentation by identifying its two key shortcomings. First, the enforced causality in the original Mamba is unsuitable for processing point clouds that have no such dependencies. Second, its unidirectional scanning strategy imposes a directional bias, hampering its ability to capture the full context of unordered point clouds in a single pass. To address these issues, we carefully remove the causal convolutions and introduce a novel Strided Bidirectional SSM to enhance the model’s capability to capture spatial relationships. Our efforts culminate in the development of a novel architecture named MEEPO, which effectively integrates the strengths of CNN and Mamba. MEEPO surpasses the previous state-of-the-art method, PTv3, by up to +0.8 mIoU on multiple key benchmark datasets, while being 42.1% faster and 5.53x more memory efficient.

arxiv情報

著者 Yong Xien Chng,Xuchong Qiu,Yizeng Han,Yifan Pu,Jiewei Cao,Gao Huang
発行日 2024-10-28 16:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク