要約
ディープ ニューラル ネットワーク (DNN) は通常、エンドツーエンド (E2E) トレーニング パラダイムを採用していますが、これには、GPU メモリの大量消費、非効率性、トレーニング中のモデルの並列化の難しさなど、いくつかの課題があります。
最近の研究ではこれらの問題に対処しようとしており、有望なアプローチの 1 つはローカル学習です。
この方法には、バックボーン ネットワークを勾配分離モジュールに分割し、これらのローカル モジュールをトレーニングするための補助ネットワークを手動で設計することが含まれます。
既存の方法では、ローカル モジュール間の情報の相互作用が無視されることが多く、近視眼的な問題や E2E トレーニングと比較したパフォーマンスのギャップにつながります。
これらの制限に対処するために、私たちは Multilaminar Leap Augmented Auxiliary Network (MLAAN) を提案します。
具体的には、MLAAN は、Multilaminar Local Modules (MLM) と Leap Augmented Modules (LAM) で構成されます。
MLM は、独立したカスケード補助ネットワークを通じてローカル機能とグローバル機能の両方をキャプチャし、グローバル機能の不足によって引き起こされるパフォーマンスの問題を軽減します。
ただし、あまりにも単純すぎる補助ネットワークは、グローバル情報を取得する MLM の機能を妨げる可能性があります。
これに対処するために、指数移動平均 (EMA) 法を使用してローカル モジュール間の情報交換を促進する強化された補助ネットワークである LAM をさらに設計し、それによって不適切な相互作用から生じる近視眼性を軽減します。
MLM と LAM の相乗効果により、優れたパフォーマンスが実証されました。
CIFAR-10、STL-10、SVHN、および ImageNet データセットに関する実験では、MLAAN が既存のローカル学習フレームワークにシームレスに統合でき、そのパフォーマンスが大幅に向上し、エンドツーエンド (E2E) トレーニング手法をも上回ることがわかりました。
GPU メモリの消費量を削減します。
要約(オリジナル)
Deep neural networks (DNNs) typically employ an end-to-end (E2E) training paradigm which presents several challenges, including high GPU memory consumption, inefficiency, and difficulties in model parallelization during training. Recent research has sought to address these issues, with one promising approach being local learning. This method involves partitioning the backbone network into gradient-isolated modules and manually designing auxiliary networks to train these local modules. Existing methods often neglect the interaction of information between local modules, leading to myopic issues and a performance gap compared to E2E training. To address these limitations, we propose the Multilaminar Leap Augmented Auxiliary Network (MLAAN). Specifically, MLAAN comprises Multilaminar Local Modules (MLM) and Leap Augmented Modules (LAM). MLM captures both local and global features through independent and cascaded auxiliary networks, alleviating performance issues caused by insufficient global features. However, overly simplistic auxiliary networks can impede MLM’s ability to capture global information. To address this, we further design LAM, an enhanced auxiliary network that uses the Exponential Moving Average (EMA) method to facilitate information exchange between local modules, thereby mitigating the shortsightedness resulting from inadequate interaction. The synergy between MLM and LAM has demonstrated excellent performance. Our experiments on the CIFAR-10, STL-10, SVHN, and ImageNet datasets show that MLAAN can be seamlessly integrated into existing local learning frameworks, significantly enhancing their performance and even surpassing end-to-end (E2E) training methods, while also reducing GPU memory consumption.
arxiv情報
著者 | Yuming Zhang,Shouxin Zhang,Peizhe Wang,Feiyu Zhu,Dongzhi Guan,Junhao Su,Jiabin Liu,Changpeng Cai |
発行日 | 2024-08-13 11:35:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google