From Markov to Laplace: How Mamba In-Context Learns Markov Chains

要約

トランスベースの言語モデルはこれまでAI革命を推進してきましたが、その計算の複雑さは、構造化された状態空間シーケンスモデル(SSM)や選択的SSMなどの実行可能な代替案への関心の高まりを促進しました。
これらの中で、Mamba(S6)とそのバリアントMamba-2は、複雑な言語モデリングタスクで同等または優れた性能を達成しながら、変圧器よりも顕著な推論速度を示しています。
しかし、これらの建築革新と経験的成功にもかかわらず、Mambaの基本的な学習能力は依然としてよく理解されていません。
この論文では、マルコフチェーンでコンテキスト内学習(ICL)を研究し、驚くべき現象を明らかにすることにより、このギャップに対処します。変圧器とは異なり、単一層のマンバでさえ、ベイズと両方のコンテキストラプラシアンスムージング推定器を効率的に学習します。
すべてのマルコフの注文について最適な最適。
これを説明するために、理論的にはマンバの表現能力を特徴付け、最適なラプラシアンの平滑化を表現できるようにする畳み込みの基本的な役割を明らかにします。
これらの理論的洞察は、経験的な結果と強く一致し、私たちの知る限り、MAMBAと最適な統計推定器との最初の正式なつながりを表しています。
最後に、これらの発見に触発された有望な研究の方向性の概要を説明します。

要約(オリジナル)

While transformer-based language models have driven the AI revolution thus far, their computational complexity has spurred growing interest in viable alternatives, such as structured state space sequence models (SSMs) and Selective SSMs. Among these, Mamba (S6) and its variant Mamba-2 have shown remarkable inference speed ups over transformers while achieving comparable or superior performance on complex language modeling tasks. However, despite these architectural innovations and empirical successes, the fundamental learning capabilities of Mamba remain poorly understood. In this paper, we address this gap by studying in-context learning (ICL) on Markov chains and uncovering a surprising phenomenon: unlike transformers, even a single-layer Mamba efficiently learns the in-context Laplacian smoothing estimator, which is both Bayes and minimax optimal, for all Markovian orders. To explain this, we theoretically characterize the representation capacity of Mamba and reveal the fundamental role of convolution in enabling it to represent the optimal Laplacian smoothing. These theoretical insights align strongly with empirical results and, to the best of our knowledge, represent the first formal connection between Mamba and optimal statistical estimators. Finally, we outline promising research directions inspired by these findings.

arxiv情報

著者 Marco Bondaschi,Nived Rajaraman,Xiuying Wei,Kannan Ramchandran,Razvan Pascanu,Caglar Gulcehre,Michael Gastpar,Ashok Vardhan Makkuva
発行日 2025-02-14 14:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT パーマリンク