Efficient Deep Learning with Decorrelated Backpropagation

要約

バックプロパゲーション アルゴリズムは、ディープ ニューラル ネットワーク (DNN) をトレーニングするための最も有力な方法であり、最も成功しています。
同時に、DNN を大規模にトレーニングするには多大な計算コストがかかるため、二酸化炭素排出量も高くなります。
収束した証拠は、入力の非相関性が深層学習を高速化する可能性があることを示唆しています。
ただし、これは現在までのところ、大規模 DNN のトレーニング効率の大幅な向上にはまだつながっていません。
これは主に、高速かつ安定したネットワーク全体の無相関化を強制するという課題によって発生します。
ここで、無相関逆伝播を使用した非常に深いニューラル ネットワークのより効率的なトレーニングが実現可能であることを初めて示します。
この目標を達成するために、最小限の計算オーバーヘッドを使用してネットワーク全体の入力無相関化を引き起こす新しいアルゴリズムを利用しました。
このアルゴリズムを慎重な最適化と組み合わせることで、18 層の深い残差ネットワークをトレーニングする場合、バックプロパゲーションと比較して 2 倍以上の高速化とより高いテスト精度が得られます。
これは、無相関化が大規模な効率的な深層学習に刺激的な見通しをもたらすことを示しています。

要約(オリジナル)

The backpropagation algorithm remains the dominant and most successful method for training deep neural networks (DNNs). At the same time, training DNNs at scale comes at a significant computational cost and therefore a high carbon footprint. Converging evidence suggests that input decorrelation may speed up deep learning. However, to date, this has not yet translated into substantial improvements in training efficiency in large-scale DNNs. This is mainly caused by the challenge of enforcing fast and stable network-wide decorrelation. Here, we show for the first time that much more efficient training of very deep neural networks using decorrelated backpropagation is feasible. To achieve this goal we made use of a novel algorithm which induces network-wide input decorrelation using minimal computational overhead. By combining this algorithm with careful optimizations, we obtain a more than two-fold speed-up and higher test accuracy compared to backpropagation when training a 18-layer deep residual network. This demonstrates that decorrelation provides exciting prospects for efficient deep learning at scale.

arxiv情報

著者 Sander Dalm,Joshua Offergeld,Nasir Ahmad,Marcel van Gerven
発行日 2024-05-17 17:13:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク