The Computational Limits of State-Space Models and Mamba via the Lens of Circuit Complexity

要約

この論文では、回路の複雑さフレームワークを使用して、MAMBAおよび状態空間モデル(SSM)の計算制限を分析します。
マンバのステートフルなデザインとトランスフォーマーよりも優れた強力な候補としての最近の注意にもかかわらず、私たちは$ \ mathrm {poly}(n)$ – 精度と一定の深い層を持つMAMBAとSSMの両方が$ \ mathsf {dlogtime}内に存在することを実証しました。
$ -Uniform $ \ mathsf {tc}^0 $ complexityクラス。
この結果は、MAMBAが変圧器と同じ計算機能を持っていることを示しており、$ \ Mathsf {TC}^0 \ Neq \ Mathsf {nc}^1の場合、算術式の問題、ブール式の式値の問題、順列構成の問題などの問題を解決することはできません。
$。
したがって、マンバは変圧器よりも計算上表現型であるという仮定に挑戦します。
私たちの貢献には、選択的SSMおよびMAMBAアーキテクチャが$ \ mathsf {dlogtime} $ – 均一な$ \ mathsf {tc}^0 $ circuitsでシミュレートできることを示す厳格な証拠が含まれます。
$。

要約(オリジナル)

In this paper, we analyze the computational limitations of Mamba and State-space Models (SSMs) by using the circuit complexity framework. Despite Mamba’s stateful design and recent attention as a strong candidate to outperform Transformers, we have demonstrated that both Mamba and SSMs with $\mathrm{poly}(n)$-precision and constant-depth layers reside within the $\mathsf{DLOGTIME}$-uniform $\mathsf{TC}^0$ complexity class. This result indicates Mamba has the same computational capabilities as Transformer theoretically, and it cannot solve problems like arithmetic formula problems, boolean formula value problems, and permutation composition problems if $\mathsf{TC}^0 \neq \mathsf{NC}^1$. Therefore, it challenges the assumption Mamba is more computationally expressive than Transformers. Our contributions include rigorous proofs showing that Selective SSM and Mamba architectures can be simulated by $\mathsf{DLOGTIME}$-uniform $\mathsf{TC}^0$ circuits, and they cannot solve problems outside $\mathsf{TC}^0$.

arxiv情報

著者 Yifang Chen,Xiaoyu Li,Yingyu Liang,Zhenmei Shi,Zhao Song
発行日 2025-02-20 18:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL, cs.LG パーマリンク