State Space Model for New-Generation Network Alternative to Transformers: A Survey

要約

ディープラーニング後の時代において、Transformer アーキテクチャは、事前トレーニングされた大きなモデルとさまざまな下流タスクにわたってその強力なパフォーマンスを実証しました。
しかし、このアーキテクチャには膨大な計算量が必要であるため、多くの研究者が躊躇しています。
アテンション モデルの複雑さをさらに軽減するために、より効率的な方法を設計するために多くの努力が払われてきました。
その中でも、状態空間モデル (SSM) は、自己注意ベースの Transformer モデルの代替となる可能性があるものとして、近年ますます注目を集めています。
この論文では、これらの研究について初めて包括的なレビューを行い、SSM の機能と利点をより適切に実証するために実験的な比較と分析も提供します。
具体的には、読者が SSM の主要なアイデアをすぐに理解できるように、最初に原理を詳細に説明します。
その後、自然言語処理、コンピューター ビジョン、グラフ、マルチモーダルおよびマルチメディア、点群/イベント ストリーム、時系列データ、その他のドメインを含む、既存の SSM とそのさまざまなアプリケーションのレビューを詳しく見ていきます。
さらに、これらのモデルの統計的な比較と分析を示し、読者がさまざまなタスクに対するさまざまな構造の有効性を理解するのに役立つことを願っています。
次に、SSM の理論モデルと応用の開発をより効果的に促進するために、この方向で考えられる研究ポイントを提案します。
その他の関連作品は、GitHub: https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List で継続的に更新されます。

要約(オリジナル)

In the post-deep learning era, the Transformer architecture has demonstrated its powerful performance across pre-trained big models and various downstream tasks. However, the enormous computational demands of this architecture have deterred many researchers. To further reduce the complexity of attention models, numerous efforts have been made to design more efficient methods. Among them, the State Space Model (SSM), as a possible replacement for the self-attention based Transformer model, has drawn more and more attention in recent years. In this paper, we give the first comprehensive review of these works and also provide experimental comparisons and analysis to better demonstrate the features and advantages of SSM. Specifically, we first give a detailed description of principles to help the readers quickly capture the key ideas of SSM. After that, we dive into the reviews of existing SSMs and their various applications, including natural language processing, computer vision, graph, multi-modal and multi-media, point cloud/event stream, time series data, and other domains. In addition, we give statistical comparisons and analysis of these models and hope it helps the readers to understand the effectiveness of different structures on various tasks. Then, we propose possible research points in this direction to better promote the development of the theoretical model and application of SSM. More related works will be continuously updated on the following GitHub: https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List.

arxiv情報

著者 Xiao Wang,Shiao Wang,Yuhe Ding,Yuehang Li,Wentao Wu,Yao Rong,Weizhe Kong,Ju Huang,Shihao Li,Haoxiang Yang,Ziwen Wang,Bo Jiang,Chenglong Li,Yaowei Wang,Yonghong Tian,Jin Tang
発行日 2024-04-15 07:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク