HGRN2: Gated Linear RNNs with State Expansion

要約

階層ゲート線形 RNN (HGRN、\citealt{HGRN}) は、効率的な推論を提供しながら、言語モデリングにおいて競争力のあるトレーニング速度とパフォーマンスを実証しました。
ただし、HGRN の反復状態のサイズは依然として比較的小さいため、表現力が制限されます。
この問題に対処するために、単純な外積ベースの状態拡張メカニズムを導入します。これにより、追加のパラメーターを導入することなく、リカレント状態のサイズが大幅に拡大されます。
この機能強化により、HGRN2 の線形アテンション解釈も提供され、ハードウェア効率の高いトレーニングが可能になります。
当社の広範な実験により、HGRN に対する HGRN2 の利点がさまざまな設定にわたって一貫して確認され、他のリカレント モデルとの競合性が検証されています。

要約(オリジナル)

Hierarchically gated linear RNN (HGRN, \citealt{HGRN}) has demonstrated competitive training speed and performance in language modeling while offering efficient inference. However, the recurrent state size of HGRN remains relatively small, limiting its expressiveness. To address this issue, we introduce a simple outer product-based state expansion mechanism, which significantly enlarges the recurrent state size without introducing any additional parameters. This enhancement also provides a linear attention interpretation for HGRN2, enabling hardware-efficient training. Our extensive experiments verify the advantage of HGRN2 over HGRN consistently across different settings and competitive with other recurrent models.

arxiv情報

著者 Zhen Qin,Songlin Yang,Weixuan Sun,Xuyang Shen,Dong Li,Weigao Sun,Yiran Zhong
発行日 2024-08-19 17:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク