Effective Learning with Node Perturbation in Multi-Layer Neural Networks

要約

Backpropagation(BP)は、深いニューラルネットワークモデルのトレーニングパラメーターをトレーニングするための支配的で最も成功した方法のままです。
ただし、BPは2つの計算的に異なる段階に依存しており、生物学的学習の満足のいく説明を提供せず、不連続性またはノイズの多いノードダイナミクスを備えたネットワークのトレーニングを申請するのが難しい場合があります。
比較すると、ノード摂動(NP)は、ネットワークの活性化へのノイズの注入と、誘導された損失の変化のその後の測定による学習を提案します。
NPは、2つのフォワード(推論)パスに依存しており、ネットワークデリバティブを使用せず、生物学的システムで学習するためのモデルとして提案されています。
ただし、標準のNPは、ガイド付きノイズベースの検索プロセスのため、データの非効率的で不安定です。
この作業では、NPのさまざまな定式化を調査し、それを方向性導関数の概念に関連付け、それを層ごとの入力の非相関メカニズムと組み合わせることに関連付けます。
方向性誘導体との緊密なアライメントとすべてのレイヤーでの入力分離とともに、パラメーターの収束の大幅な改善とテストデータのはるかに高いパフォーマンスでNP学習のパフォーマンスを強くすることで、BPのパフォーマンスが強くなることがわかります。
さらに、私たちの新しい定式化により、ノイズプロセス自体がアクセスできない騒々しいシステムに適用できます。

要約(オリジナル)

Backpropagation (BP) remains the dominant and most successful method for training parameters of deep neural network models. However, BP relies on two computationally distinct phases, does not provide a satisfactory explanation of biological learning, and can be challenging to apply for training of networks with discontinuities or noisy node dynamics. By comparison, node perturbation (NP) proposes learning by the injection of noise into network activations, and subsequent measurement of the induced loss change. NP relies on two forward (inference) passes, does not make use of network derivatives, and has been proposed as a model for learning in biological systems. However, standard NP is highly data inefficient and unstable due to its unguided noise-based search process. In this work, we investigate different formulations of NP and relate it to the concept of directional derivatives as well as combining it with a decorrelating mechanism for layer-wise inputs. We find that a closer alignment with directional derivatives together with input decorrelation at every layer strongly enhances performance of NP learning with large improvements in parameter convergence and much higher performance on the test data, approaching that of BP. Furthermore, our novel formulation allows for application to noisy systems in which the noise process itself is inaccessible.

arxiv情報

著者 Sander Dalm,Marcel van Gerven,Nasir Ahmad
発行日 2025-01-30 15:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク