Theoretical Foundations of Deep Selective State-Space Models

要約

Gu らの独創的な研究に由来する S4 などの構造化状態空間モデル (SSM) は、逐次データをモデリングするための効果的なアプローチとして人気を集めています。
Deep SSM は、アテンションベースのトランスフォーマーと比較してトレーニングと推論のコストを削減しながら、さまざまなドメインにわたって優れたパフォーマンスを発揮します。
最近の開発では、SSM を強化する線形再帰が入力と隠れ状態 (GateLoop、Mamba、GLA など) の間の乗法的相互作用を可能にすると、結果として得られるアーキテクチャは、精度と効率の両方において、テキストでトレーニングされた注意力​​を利用した基礎モデルを上回ることができることが示されています。
数十億のパラメータのスケール。
この論文では、ラフ パス理論のツールを使用して、この最近の発見に理論的根拠を与えます。ランダムな線形反復に単純な入力制御遷移 (選択性メカニズム) が装備されている場合、隠れ状態はおそらく低次元射影であることを示します。
入力の署名と呼ばれる強力な数学的オブジェクトの、異なるタイムスケールでのトークン間の非線形相互作用をキャプチャします。
私たちの理論は、Mamba などの最新の選択的状態空間モデルの成功を促すだけでなく、将来の SSM バリアントの表現力を理解するための強固なフレームワークも提供します。

要約(オリジナル)

Structured state-space models (SSMs) such as S4, stemming from the seminal work of Gu et al., are gaining popularity as effective approaches for modeling sequential data. Deep SSMs demonstrate outstanding performance across a diverse set of domains, at a reduced training and inference cost compared to attention-based transformers. Recent developments show that if the linear recurrence powering SSMs allows for multiplicative interactions between inputs and hidden states (e.g. GateLoop, Mamba, GLA), then the resulting architecture can surpass in both in accuracy and efficiency attention-powered foundation models trained on text, at scales of billion parameters. In this paper, we give theoretical grounding to this recent finding using tools from Rough Path Theory: we show that when random linear recurrences are equipped with simple input-controlled transitions (selectivity mechanism), then the hidden state is provably a low-dimensional projection of a powerful mathematical object called the signature of the input — capturing non-linear interactions between tokens at distinct timescales. Our theory not only motivates the success of modern selective state-space models such as Mamba but also provides a solid framework to understand the expressive power of future SSM variants.

arxiv情報

著者 Nicola Muca Cirone,Antonio Orvieto,Benjamin Walker,Cristopher Salvi,Terry Lyons
発行日 2025-01-06 14:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS パーマリンク