Adaptive-saturated RNN: Remember more with less instability

要約

タイトル:Adaptive-saturated RNN:より不安定性の少ないより多くのことを覚える

要約:
– 従来のバニラRNNは記憶容量が高いが、消失勾配問題(VGP)に苦しんでおり、多くのアプリケーションで悪いパフォーマンスを示す。
– 直交パラメータ化は、直交パラメータと非飽和活性化関数を持つモデルにおいて、勾配が単位ノルムに制限されることでVGPへの説得力のある解決策である。
– この研究では、asRNN(Adaptive-Saturated RNNs)と呼ばれる変異体を提案する。asRNNは、2つのアプローチの間で飽和レベルを動的に調整する。そのため、asRNNはバニラRNNの容量と直交RNNsのトレーニングの安定性の両方を享受することができる。
– 実験では、いくつかの強力な競合相手と比較して、asRNNが難しいシーケンス学習ベンチマークで励みになる結果を示した。
– 研究コードはhttps://github.com/ndminhkhoi46/asRNN/でアクセス可能です。

要約(オリジナル)

Orthogonal parameterization is a compelling solution to the vanishing gradient problem (VGP) in recurrent neural networks (RNNs). With orthogonal parameters and non-saturated activation functions, gradients in such models are constrained to unit norms. On the other hand, although the traditional vanilla RNNs are seen to have higher memory capacity, they suffer from the VGP and perform badly in many applications. This work proposes Adaptive-Saturated RNNs (asRNN), a variant that dynamically adjusts its saturation level between the two mentioned approaches. Consequently, asRNN enjoys both the capacity of a vanilla RNN and the training stability of orthogonal RNNs. Our experiments show encouraging results of asRNN on challenging sequence learning benchmarks compared to several strong competitors. The research code is accessible at https://github.com/ndminhkhoi46/asRNN/.

arxiv情報

著者 Khoi Minh Nguyen-Duy,Quang Pham,Binh T. Nguyen
発行日 2023-04-24 02:28:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, I.2 パーマリンク