要約
階層ゲート線形 RNN (HGRN、\citealt{HGRN}) は、効率的な推論を提供しながら、言語モデリングにおいて競争力のあるトレーニング速度とパフォーマンスを実証しました。
ただし、HGRN の反復状態のサイズは依然として比較的小さいため、表現力が制限されます。
この問題に対処するために、単純な外積ベースの状態拡張メカニズムを導入します。これにより、追加のパラメーターを導入することなく、リカレント状態のサイズが大幅に拡大されます。
この機能強化により、HGRN2 の線形アテンション解釈も提供され、ハードウェア効率の高いトレーニングが可能になります。
当社の広範な実験により、HGRN に対する HGRN2 の利点がさまざまな設定にわたって一貫して確認され、他のリカレント モデルとの競合性が検証されています。
要約(オリジナル)
Hierarchically gated linear RNN (HGRN, \citealt{HGRN}) has demonstrated competitive training speed and performance in language modeling while offering efficient inference. However, the recurrent state size of HGRN remains relatively small, limiting its expressiveness. To address this issue, we introduce a simple outer product-based state expansion mechanism, which significantly enlarges the recurrent state size without introducing any additional parameters. This enhancement also provides a linear attention interpretation for HGRN2, enabling hardware-efficient training. Our extensive experiments verify the advantage of HGRN2 over HGRN consistently across different settings and competitive with other recurrent models.
arxiv情報
| 著者 | Zhen Qin,Songlin Yang,Weixuan Sun,Xuyang Shen,Dong Li,Weigao Sun,Yiran Zhong | 
| 発行日 | 2024-08-19 17:16:55+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
