Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues

要約

Mamba、RWKV、GLA、MLSTM、Deltanetなどの線形再発性ニューラルネットワーク(LRNN)は、長いシーケンスの変圧器に代わる効率的な代替品として浮上しています。
ただし、トランスとLRNNの両方が状態追跡の実行に苦労しているため、コード評価などのタスクのパフォーマンスを損なう可能性があります。
1つのフォワードパスでは、現在のアーキテクチャは、非線形RNNが効果的に処理できる最も単純な状態追跡タスクであるパリティさえも解決できません。
最近、Sarrof et al。
(2024)マンバのようなLRNNがパリティステムを解決できなかったことが、斜めの状態遷移行列の値の範囲を$ [0、1] $に制限することから、負の値を組み込むことでこの問題を解決できることを実証しました。
この結果は、Deltanetなどの非対角LRNNに拡張します。
正の固有値のみを有する状態移動マトリックスを持つ有限精度のLRNNは、平等を解くことができないが、非三角マトリックスがmodulo $ 3 $をカウントするために必要であることを証明します。
特に、LRNNは、状態移動マトリックスがアイデンティティからベクトル外積マトリックスの積である場合、それぞれ$ [1、1] $に固有値を持つベクトル外積マトリックスの積であることを証明します。
私たちの実験では、マンバとデルタネットの固有値範囲を拡張して負の値を含めることにより、パリティを解決できるだけでなく、状態追跡タスクのパフォーマンスが一貫して改善されることが確認されています。
また、状態追跡可能なLRNNが大規模で安定して効率的に事前に排除され(1.3bパラメーター)、言語モデリングの競争力のあるパフォーマンスを達成し、コードと数学のタスクでの見込みを示すことができることを示しています。

要約(オリジナル)

Linear Recurrent Neural Networks (LRNNs) such as Mamba, RWKV, GLA, mLSTM, and DeltaNet have emerged as efficient alternatives to Transformers for long sequences. However, both Transformers and LRNNs struggle to perform state-tracking, which may impair performance in tasks such as code evaluation. In one forward pass, current architectures are unable to solve even parity, the simplest state-tracking task, which non-linear RNNs can handle effectively. Recently, Sarrof et al. (2024) demonstrated that the failure of LRNNs like Mamba to solve parity stems from restricting the value range of their diagonal state-transition matrices to $[0, 1]$ and that incorporating negative values can resolve this issue. We extend this result to non-diagonal LRNNs such as DeltaNet. We prove that finite precision LRNNs with state-transition matrices having only positive eigenvalues cannot solve parity, while non-triangular matrices are needed to count modulo $3$. Notably, we also prove that LRNNs can learn any regular language when their state-transition matrices are products of identity minus vector outer product matrices, each with eigenvalues in the range $[-1, 1]$. Our experiments confirm that extending the eigenvalue range of Mamba and DeltaNet to include negative values not only enables them to solve parity but consistently improves their performance on state-tracking tasks. We also show that state-tracking enabled LRNNs can be pretrained stably and efficiently at scale (1.3B parameters), achieving competitive performance on language modeling and showing promise on code and math tasks.

arxiv情報

著者 Riccardo Grazzi,Julien Siems,Arber Zela,Jörg K. H. Franke,Frank Hutter,Massimiliano Pontil
発行日 2025-03-18 13:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG パーマリンク