要約
ディープネットワークの従来のE2E(end-to-end)学習では、バックプロパゲーションのために中間活性度を保存する必要があるため、GPU上のメモリフットプリントが大きくなり、モデルの並列化が制限されます。代替案として、貪欲な局所学習は、ネットワークを勾配分離されたモジュールに分割し、局所的な予備損失に基づいて監視的に学習することで、メモリコストを大幅に削減する非同期かつ並列の学習方法を提供する。しかし、勾配分離されたモジュールの分割数が増加するにつれて、局所学習スキームの性能は大幅に低下し、その拡張性が著しく制限されることが実証実験により明らかになった。この問題を回避するために、情報理論の立場から貪欲な局所学習を理論的に解析し、情報損失を補うために分離モジュール間の文脈供給を組み込んだContSupスキームを提案する。ベンチマークデータセット(CIFAR, SVHN, STL-10)を用いた実験の結果、SOTAの結果が得られ、提案手法が最小限のメモリと計算オーバヘッドで貪欲な局所学習の性能を大幅に向上させ、孤立モジュール数の増加を可能にすることが示された。我々のコードはhttps://github.com/Tab-ct/ContSup。
要約(オリジナル)
Traditional end-to-end (E2E) training of deep networks necessitates storing intermediate activations for back-propagation, resulting in a large memory footprint on GPUs and restricted model parallelization. As an alternative, greedy local learning partitions the network into gradient-isolated modules and trains supervisely based on local preliminary losses, thereby providing asynchronous and parallel training methods that substantially reduce memory cost. However, empirical experiments reveal that as the number of segmentations of the gradient-isolated module increases, the performance of the local learning scheme degrades substantially, severely limiting its expansibility. To avoid this issue, we theoretically analyze the greedy local learning from the standpoint of information theory and propose a ContSup scheme, which incorporates context supply between isolated modules to compensate for information loss. Experiments on benchmark datasets (i.e. CIFAR, SVHN, STL-10) achieve SOTA results and indicate that our proposed method can significantly improve the performance of greedy local learning with minimal memory and computational overhead, allowing for the boost of the number of isolated modules. Our codes are available at https://github.com/Tab-ct/ContSup.
arxiv情報
著者 | Chengting Yu,Fengzhao Zhang,Hanzhi Ma,Aili Wang,Erping Li |
発行日 | 2024-12-03 18:35:27+00:00 |
arxivサイト | arxiv_id(pdf) |