要約
トランスフォーマーは、その優れたグローバル モデリング機能により、点群解析タスクの基本アーキテクチャの 1 つとなっています。
ただし、アテンション メカニズムには二次複雑性があるため、グローバル モデリングを使用した線形複雑性メソッドの設計が魅力的になります。
本稿では、最近の代表的な状態空間モデル (SSM) である Mamba の成功を NLP から点群解析タスクに移管した PointMamba を提案します。
従来の Transformers とは異なり、PointMamba は線形複雑性アルゴリズムを採用しており、計算コストを大幅に削減しながらグローバルなモデリング能力を提供します。
具体的には、私たちの方法は効果的なポイントトークン化のために空間充填曲線を活用し、バックボーンとして非常にシンプルな非階層的な Mamba エンコーダを採用しています。
包括的な評価により、PointMamba が GPU メモリ使用量と FLOP を大幅に削減しながら、複数のデータセットにわたって優れたパフォーマンスを達成することが実証されました。
この研究は、3D ビジョン関連のタスクにおける SSM の可能性を強調し、将来の研究のためのシンプルかつ効果的な Mamba ベースのベースラインを提示します。
コードは https://github.com/LMD0311/PointMamba で入手できます。
要約(オリジナル)
Transformers have become one of the foundational architectures in point cloud analysis tasks due to their excellent global modeling ability. However, the attention mechanism has quadratic complexity, making the design of a linear complexity method with global modeling appealing. In this paper, we propose PointMamba, transferring the success of Mamba, a recent representative state space model (SSM), from NLP to point cloud analysis tasks. Unlike traditional Transformers, PointMamba employs a linear complexity algorithm, presenting global modeling capacity while significantly reducing computational costs. Specifically, our method leverages space-filling curves for effective point tokenization and adopts an extremely simple, non-hierarchical Mamba encoder as the backbone. Comprehensive evaluations demonstrate that PointMamba achieves superior performance across multiple datasets while significantly reducing GPU memory usage and FLOPs. This work underscores the potential of SSMs in 3D vision-related tasks and presents a simple yet effective Mamba-based baseline for future research. The code is available at https://github.com/LMD0311/PointMamba.
arxiv情報
著者 | Dingkang Liang,Xin Zhou,Wei Xu,Xingkui Zhu,Zhikang Zou,Xiaoqing Ye,Xiao Tan,Xiang Bai |
発行日 | 2024-05-29 14:32:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google