要約
トランスフォーマーは、並列トレーニングと長期依存関係モデリングにおける優れた能力により、人気が RNN を上回りました。
最近、効率的なシーケンス モデリングに線形 RNN を使用することに新たな関心が集まっています。
これらの線形 RNN は、線形再帰層の出力にゲート メカニズムを採用することがよくありますが、再帰内でフォーゲット ゲートを使用する重要性は無視されます。
この論文では、階層ゲート型リカレント ニューラル ネットワーク (HGRN) と呼ばれるゲート型線形 RNN モデルを提案します。これには、学習可能な値によって下限が設定される忘却ゲートが含まれます。
下限は、レイヤーを上に移動すると単調に増加します。
これにより、上位層で長期的な依存関係をモデル化し、下位層でよりローカルな短期的な依存関係をモデル化できるようになります。
言語モデリング、画像分類、および長距離アリーナ ベンチマークに関する実験により、提案されたモデルの効率と有効性が示されています。
ソース コードは https://github.com/OpenNLPLab/HGRN で入手できます。
要約(オリジナル)
Transformers have surpassed RNNs in popularity due to their superior abilities in parallel training and long-term dependency modeling. Recently, there has been a renewed interest in using linear RNNs for efficient sequence modeling. These linear RNNs often employ gating mechanisms in the output of the linear recurrence layer while ignoring the significance of using forget gates within the recurrence. In this paper, we propose a gated linear RNN model dubbed Hierarchically Gated Recurrent Neural Network (HGRN), which includes forget gates that are lower bounded by a learnable value. The lower bound increases monotonically when moving up layers. This allows the upper layers to model long-term dependencies and the lower layers to model more local, short-term dependencies. Experiments on language modeling, image classification, and long-range arena benchmarks showcase the efficiency and effectiveness of our proposed model. The source code is available at https://github.com/OpenNLPLab/HGRN.
arxiv情報
著者 | Zhen Qin,Songlin Yang,Yiran Zhong |
発行日 | 2023-11-08 16:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google