Recurrent neural networks: vanishing and exploding gradients are not the end of the story

要約

リカレント ニューラル ネットワーク (RNN) は、主に勾配の消失と爆発が原因で、長期記憶を学習するのに苦労することで知られています。
RNN のサブクラスである状態空間モデル (SSM) が最近成功し、このような困難を克服したことで、私たちの理論的理解に疑問が生じています。
この論文では、RNN の最適化の課題を詳しく掘り下げ、ネットワークのメモリが増加するにつれて、そのパラメーターの変化により出力変動がますます大きくなり、勾配が爆発しない場合でも勾配ベースの学習の感度が高くなることがわかりました。
私たちの分析では、この影響を軽減するには、要素ごとの反復設計パターンと慎重なパラメータ化を組み合わせることが重要であることがさらに明らかになりました。
この機能は、SSM だけでなく、LSTM などの他のアーキテクチャにも存在します。
全体として、私たちの洞察は、RNN の勾配ベースの学習におけるいくつかの困難と、一部のアーキテクチャが他のアーキテクチャよりも優れたパフォーマンスを発揮する理由について、新たな説明を提供します。

要約(オリジナル)

Recurrent neural networks (RNNs) notoriously struggle to learn long-term memories, primarily due to vanishing and exploding gradients. The recent success of state-space models (SSMs), a subclass of RNNs, to overcome such difficulties challenges our theoretical understanding. In this paper, we delve into the optimization challenges of RNNs and discover that, as the memory of a network increases, changes in its parameters result in increasingly large output variations, making gradient-based learning highly sensitive, even without exploding gradients. Our analysis further reveals the importance of the element-wise recurrence design pattern combined with careful parametrizations in mitigating this effect. This feature is present in SSMs, as well as in other architectures, such as LSTMs. Overall, our insights provide a new explanation for some of the difficulties in gradient-based learning of RNNs and why some architectures perform better than others.

arxiv情報

著者 Nicolas Zucchet,Antonio Orvieto
発行日 2024-05-31 17:53:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク