要約
線形再発性ニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスの競争力のある代替品として浮上しており、効率的なトレーニングと線形時間推論を提供しています。
ただし、既存のアーキテクチャは、表現力と効率性の基本的なトレードオフに直面しており、国家移動マトリックスの構造によって決定されます。
Mamba、GLA、またはMLSTMなどのアーキテクチャで使用される斜めのマトリックスは、ランタイムが速い速いことを生み出しますが、表現率は厳しくありません。
これに対処するために、(ゲート)デルタネットやRWKVV7などの最近のアーキテクチャは、対角線プラスランク1構造を採用し、同時のトークンチャネル混合を可能にし、トレーニング効率がわずかに低下するだけで表現率の制限を克服します。
デルタネットの再発の解釈に基づいて、連想リコール損失でトークンごとにオンライン勾配降下の1つのステップを実行すると、デルタプロダクトを導入します。
これは、自然に対角線プラスランク$ $ n_h $の状態移動マトリックスにつながり、$ n_h $一般化された世帯主の変換の積として形成され、表現性と効率と安定した再発のバランスをとる調整可能なメカニズムを提供します。
広範な実験を通じて、デルタプロダクトが優れた状態追跡および言語モデリング機能を達成しながら、デルタネットと比較して長さの外挿を大幅に改善することを実証します。
さらに、Deltanetの表現力の理論的基盤を強化し、2層での二面体グループの問題を解決できることを証明します。
要約(オリジナル)
Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKVv7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet’s recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet’s expressivity by proving that it can solve dihedral group word problems in just two layers.
arxiv情報
著者 | Julien Siems,Timur Carstensen,Arber Zela,Frank Hutter,Massimiliano Pontil,Riccardo Grazzi |
発行日 | 2025-02-14 16:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google