要約
長距離シーケンス処理は、入力の長さが2次関数的に複雑になるため、Transformerにとって大きな課題となる。Mambaは高い性能を示し、Transformerレベルの性能を達成しながら、必要な計算資源を大幅に削減することができる。本論文では、Mambaの長さ汎化能力を探索する。一連の可視化と分析を通して、この限界は、トレーニング中に使用されるシーケンス長によって規定される、制限された有効受容野に起因することを明らかにする。この制約に対処するため、Mamba用に特別に設計されたコンテキスト拡張手法であるDeliMambaを紹介する。このメカニズムは、S6層に組み込まれた隠れフィルタリング機構の上に構築されており、追加訓練なしでも、訓練されたモデルがうまく外挿できるようにする。実世界の長距離NLPタスクに対する実証実験によると、DeliMambaは学習時に見た長さよりもかなり長いコンテキスト長まで外挿できることが示されており、同時に高速な推論を楽しむことができる。
要約(オリジナル)
Long-range sequence processing poses a significant challenge for Transformers due to their quadratic complexity in input length. A promising alternative is Mamba, which demonstrates high performance and achieves Transformer-level capabilities while requiring substantially fewer computational resources. In this paper we explore the length-generalization capabilities of Mamba, which we find to be relatively limited. Through a series of visualizations and analyses we identify that the limitations arise from a restricted effective receptive field, dictated by the sequence length used during training. To address this constraint, we introduce DeciMamba, a context-extension method specifically designed for Mamba. This mechanism, built on top of a hidden filtering mechanism embedded within the S6 layer, enables the trained model to extrapolate well even without additional training. Empirical experiments over real-world long-range NLP tasks show that DeciMamba can extrapolate to context lengths that are significantly longer than the ones seen during training, while enjoying faster inference.
arxiv情報
著者 | Assaf Ben-Kish,Itamar Zimerman,Shady Abu-Hussein,Nadav Cohen,Amir Globerson,Lior Wolf,Raja Giryes |
発行日 | 2025-02-03 16:26:20+00:00 |
arxivサイト | arxiv_id(pdf) |