要約
トランスフォーマーは、その優れたグローバル モデリング機能により、点群解析タスクの基本アーキテクチャの 1 つとなっています。
しかし、アテンション機構は二次的な複雑性を有しており、計算リソースが限られているなどの理由から、長いシーケンスのモデリングに拡張するのは困難です。
最近、深シーケンス モデルの新しいファミリーである状態空間モデル (SSM) が、NLP タスクにおけるシーケンス モデリングに大きな可能性をもたらしました。
この論文では、NLP における SSM の成功からインスピレーションを得て、グローバル モデリングと線形複雑性を備えたフレームワークである PointMamba を提案します。
具体的には、埋め込まれたポイント パッチを入力として取得することで、より論理的な幾何学的スキャン順序を提供することで SSM のグローバル モデリング能力を強化する並べ替え戦略を提案しました。
並べ替えられた点トークンは一連の Mamba ブロックに送信され、点群構造が因果的にキャプチャされます。
実験結果は、私たちが提案した PointMamba が、さまざまな点群解析データセットでトランスフォーマーベースの同等のパフォーマンスを上回り、約 44.3% のパラメーターと 25% の FLOP を大幅に節約することを示しており、基礎的な 3D ビジョン モデルを構築するための潜在的なオプションを示しています。
私たちの PointMamba が点群解析に新しい視点を提供できることを願っています。
コードは https://github.com/LMD0311/PointMamba で入手できます。
要約(オリジナル)
Transformers have become one of the foundational architectures in point cloud analysis tasks due to their excellent global modeling ability. However, the attention mechanism has quadratic complexity and is difficult to extend to long sequence modeling due to limited computational resources and so on. Recently, state space models (SSM), a new family of deep sequence models, have presented great potential for sequence modeling in NLP tasks. In this paper, taking inspiration from the success of SSM in NLP, we propose PointMamba, a framework with global modeling and linear complexity. Specifically, by taking embedded point patches as input, we proposed a reordering strategy to enhance SSM’s global modeling ability by providing a more logical geometric scanning order. The reordered point tokens are then sent to a series of Mamba blocks to causally capture the point cloud structure. Experimental results show our proposed PointMamba outperforms the transformer-based counterparts on different point cloud analysis datasets, while significantly saving about 44.3% parameters and 25% FLOPs, demonstrating the potential option for constructing foundational 3D vision models. We hope our PointMamba can provide a new perspective for point cloud analysis. The code is available at https://github.com/LMD0311/PointMamba.
arxiv情報
著者 | Dingkang Liang,Xin Zhou,Xinyu Wang,Xingkui Zhu,Wei Xu,Zhikang Zou,Xiaoqing Ye,Xiang Bai |
発行日 | 2024-02-16 14:56:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google