要約
学習のための標準的なディープラーニングアプローチでは、出力から各学習可能なパラメーターに向かってエラー信号を逆伝導することにより、各レイヤーで勾配用語を計算する必要があります。
各レイヤーが以下のレイヤーの表現に基づいて構築されるニューラルネットワークの積み重ねられた構造を考えると、このアプローチは階層表現につながります。
より抽象的な機能は、モデルの最上層に存在しますが、下層の機能は抽象的ではないと予想されます。
これとは対照的に、NoPropという名前の新しい学習方法を紹介します。これは、前方または後方の伝播に依存していません。
代わりに、NOPROPは、各層が独立して騒々しいターゲットを除去することを独立して学習する拡散とフローマッチング方法からインスピレーションを得ます。
この作業は、少なくとも通常の意味では、階層的表現を学習しない新しい勾配のない学習方法を導入するための第一歩を踏み出すと考えています。
NOPROPは、各レイヤーの表現を事前にターゲットのnoisedバージョンに固定する必要があり、推論で悪用される可能性のあるローカル除去プロセスを学習する必要があります。
MNIST、CIFAR-10、およびCIFAR-100の画像分類ベンチマークに対する方法の有効性を実証します。
我々の結果は、NOPROPが優れた精度を達成する実行可能な学習アルゴリズムであり、他の既存のバックプロパゲーションのない方法と比較して、使いやすく、計算的に効率的であることを示しています。
従来のグラデーションベースの学習パラダイムから出発することにより、NOPROPはネットワーク内でクレジットの割り当てがどのように行われるかを変え、より効率的な分散学習を可能にし、学習プロセスの他の特性に影響を与える可能性があります。
要約(オリジナル)
The canonical deep learning approach for learning requires computing a gradient term at each layer by back-propagating the error signal from the output towards each learnable parameter. Given the stacked structure of neural networks, where each layer builds on the representation of the layer below, this approach leads to hierarchical representations. More abstract features live on the top layers of the model, while features on lower layers are expected to be less abstract. In contrast to this, we introduce a new learning method named NoProp, which does not rely on either forward or backwards propagation. Instead, NoProp takes inspiration from diffusion and flow matching methods, where each layer independently learns to denoise a noisy target. We believe this work takes a first step towards introducing a new family of gradient-free learning methods, that does not learn hierarchical representations — at least not in the usual sense. NoProp needs to fix the representation at each layer beforehand to a noised version of the target, learning a local denoising process that can then be exploited at inference. We demonstrate the effectiveness of our method on MNIST, CIFAR-10, and CIFAR-100 image classification benchmarks. Our results show that NoProp is a viable learning algorithm which achieves superior accuracy, is easier to use and computationally more efficient compared to other existing back-propagation-free methods. By departing from the traditional gradient based learning paradigm, NoProp alters how credit assignment is done within the network, enabling more efficient distributed learning as well as potentially impacting other characteristics of the learning process.
arxiv情報
著者 | Qinyu Li,Yee Whye Teh,Razvan Pascanu |
発行日 | 2025-03-31 17:08:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google