One Forward is Enough for Neural Network Training via Likelihood Ratio Method

要約

バックプロパゲーション (BP) は、ニューラル ネットワークのトレーニングにおける勾配計算の主流のアプローチですが、微分連鎖則への依存度が高いため、ネットワーク アーキテクチャとトレーニング パイプラインの設計の柔軟性が制約されます。
BP での再帰的計算を回避し、1 回だけの前方伝播による勾配推定のための統一尤度比 (ULR) 法を開発します。
ULR を拡張してさまざまなニューラル ネットワーク アーキテクチャをトレーニングできるだけでなく、BP の計算フローを ULR によって再配置して、デバイスの適応を改善することもできます。
さらに、トレーニングプロセスをさらに加速するために、いくつかの分散削減手法を提案します。
私たちの実験では、さまざまなニューラル ネットワーク トレーニング シナリオ、計算フローの再配置、事前トレーニングされたモデルの微調整など、さまざまな側面にわたる数値結果が得られます。
すべての調査結果は、ULR がグローバルな目的を損なうことなく局所的なモジュール トレーニングを可能にすることでニューラル ネットワーク トレーニングの柔軟性を効果的に強化し、ネットワークの堅牢性を大幅に向上させることを示しています。

要約(オリジナル)

While backpropagation (BP) is the mainstream approach for gradient computation in neural network training, its heavy reliance on the chain rule of differentiation constrains the designing flexibility of network architecture and training pipelines. We avoid the recursive computation in BP and develop a unified likelihood ratio (ULR) method for gradient estimation with just one forward propagation. Not only can ULR be extended to train a wide variety of neural network architectures, but the computation flow in BP can also be rearranged by ULR for better device adaptation. Moreover, we propose several variance reduction techniques to further accelerate the training process. Our experiments offer numerical results across diverse aspects, including various neural network training scenarios, computation flow rearrangement, and fine-tuning of pre-trained models. All findings demonstrate that ULR effectively enhances the flexibility of neural network training by permitting localized module training without compromising the global objective and significantly boosts the network robustness.

arxiv情報

著者 Jinyang Jiang,Zeliang Zhang,Chenliang Xu,Zhaofei Yu,Yijie Peng
発行日 2023-10-13 15:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, math.OC パーマリンク