Correlations Are Ruining Your Gradient Descent

要約

ここでは、(自然) 勾配降下法、データの無相関化、および逆伝播の近似法に関するトピックが対話に持ち込まれます。
自然勾配降下法は、損失ランドスケープの局所的な曲率を考慮することで、最急降下方向を指す勾配ベクトルをどのように改善できるかを明らかにします。
この観点を拡張し、ニューラル ネットワークの自然な勾配によって明らかにされる問題を完全に解決するには、ニューラル ネットワークの各層でのノード応答を含む、線形変換におけるデータの相関が非正規直交関係を引き起こすことを認識する必要があることを示します。
モデルのパラメータの間。
これを解決するには、ニューラル ネットワークの個々の層で入力を非相関化するソリューションが必要です。
分散コンピューティングと計算神経科学に特に役立つ新しい方法を提供しながら、ノード出力の無相関化と白色化のために提案されている一連の方法について説明します。
多層ニューラル ネットワーク内に無相関化を実装すると、バックプロパゲーションによるトレーニングが大幅に高速化されるだけでなく、過去に壊滅的に失敗したバックプロパゲーションの既存の近似も再びパフォーマンスが向上することがわかります。
これは、これまで放棄されてきた近似勾配降下法、アナログおよびニューロモーフィック ハードウェアのトレーニング アプローチ、および脳内の非相関プロセスの有効性と有用性に関する潜在的な洞察に進む道を提供する可能性があります。

要約(オリジナル)

Herein the topics of (natural) gradient descent, data decorrelation, and approximate methods for backpropagation are brought into a dialogue. Natural gradient descent illuminates how gradient vectors, pointing at directions of steepest descent, can be improved by considering the local curvature of loss landscapes. We extend this perspective and show that to fully solve the problem illuminated by natural gradients in neural networks, one must recognise that correlations in the data at any linear transformation, including node responses at every layer of a neural network, cause a non-orthonormal relationship between the model’s parameters. To solve this requires a solution to decorrelate inputs at each individual layer of a neural network. We describe a range of methods which have been proposed for decorrelation and whitening of node output, while providing a novel method specifically useful for distributed computing and computational neuroscience. Implementing decorrelation within multi-layer neural networks, we can show that not only is training via backpropagation sped up significantly but also existing approximations of backpropagation, which have failed catastrophically in the past, are made performant once more. This has the potential to provide a route forward for approximate gradient descent methods which have previously been discarded, training approaches for analogue and neuromorphic hardware, and potentially insights as to the efficacy and utility of decorrelation processes in the brain.

arxiv情報

著者 Nasir Ahmad
発行日 2024-07-15 14:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク