要約
ディープ ニューラル ネットワークは従来、トレーニング プロセスにエンドツーエンドのバックプロパゲーションを採用していましたが、これでは生物学的信頼性に欠け、ネットワーク パラメーターの更新中にロッキング ジレンマが引き起こされ、GPU メモリの大量使用につながります。
教師ありローカル学習。ネットワークを複数のローカル ブロックに分割し、独立した補助ネットワークによって更新されます。
ただし、勾配はローカル ブロック内でのみ伝播し、ブロック間の情報交換が不足するため、精度が低いため、これらの方法はエンドツーエンド トレーニングに代わることはできません。
この問題に対処し、ブロック間の情報転送を確立するために、動的対話メカニズムを確立する Momentum Auxiliary Network (MAN) を提案します。
MAN は、隣接するローカル ブロックからのパラメーターの指数移動平均 (EMA) を利用して、情報フローを強化します。
この補助ネットワークは EMA を通じて更新され、ブロック間の情報ギャップを埋めるのに役立ちます。
それにもかかわらず、ローカル ブロック間の特徴の不一致により、EMA パラメーターを直接適用することには一定の制限があることがわかりました。
これを克服するために、学習可能なバイアスを導入し、パフォーマンスをさらに向上させます。
私たちは 4 つの画像分類データセット (CIFAR-10、STL-10、SVHN、ImageNet) でメソッドを検証し、優れたパフォーマンスと大幅なメモリ節約を実現しました。
特に、私たちの方法は、より高いパフォーマンスを達成しながら、エンドツーエンドのトレーニングと比較して、ImageNet データセットの GPU メモリ使用量を 45\% 以上削減できます。
したがって、Momentum Auxiliary Network は、教師ありローカル学習に新しい視点を提供します。
私たちのコードは https://github.com/JunhaoSu0/MAN で入手できます。
要約(オリジナル)
Deep neural networks conventionally employ end-to-end backpropagation for their training process, which lacks biological credibility and triggers a locking dilemma during network parameter updates, leading to significant GPU memory use. Supervised local learning, which segments the network into multiple local blocks updated by independent auxiliary networks. However, these methods cannot replace end-to-end training due to lower accuracy, as gradients only propagate within their local block, creating a lack of information exchange between blocks. To address this issue and establish information transfer across blocks, we propose a Momentum Auxiliary Network (MAN) that establishes a dynamic interaction mechanism. The MAN leverages an exponential moving average (EMA) of the parameters from adjacent local blocks to enhance information flow. This auxiliary network, updated through EMA, helps bridge the informational gap between blocks. Nevertheless, we observe that directly applying EMA parameters has certain limitations due to feature discrepancies among local blocks. To overcome this, we introduce learnable biases, further boosting performance. We have validated our method on four image classification datasets (CIFAR-10, STL-10, SVHN, ImageNet), attaining superior performance and substantial memory savings. Notably, our method can reduce GPU memory usage by more than 45\% on the ImageNet dataset compared to end-to-end training, while achieving higher performance. The Momentum Auxiliary Network thus offers a new perspective for supervised local learning. Our code is available at: https://github.com/JunhaoSu0/MAN.
arxiv情報
著者 | Junhao Su,Changpeng Cai,Feiyu Zhu,Chenghao He,Xiaojie Xu,Dongzhi Guan,Chenyang Si |
発行日 | 2024-08-12 12:47:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google