MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network

要約

エンドツーエンド (E2E) トレーニング アプローチは一般に、メモリ消費量の多さ、トレーニング効率の低下、モデルの並列化における課題、および最適ではない生体適合性によって悩まされています。
ローカル学習は、E2E の代替として有望な新しい対話型トレーニング方法と考えられています。
それにもかかわらず、従来のローカル学習方法では、ローカルなモジュール間の相互作用が不十分であるため、高いモデル精度を達成することができません。
このペーパーでは、多層リープ拡張補助ネットワーク (MLAAN) を使用したスケーリング教師ありローカル学習として知られる新しいモデルを紹介します。
MLAAN は、堅牢な強化モジュールと組み合わせた革新的な教師ありローカル学習アプローチを特徴としています。
このデュアルコンポーネント設計により、MLAAN は確立されたローカル学習手法とスムーズに統合できるため、基本的な手法の有効性が向上します。
この方法は、一方では独立した補助ネットワークとカスケード補助ネットワークを構築することにより、モデルのローカルおよびグローバルな特徴を別々に同時に取得し、弱い監視にしばしば関連する学習能力の低下に対抗するために機能する飛躍拡張モジュールを組み込んでいます。
このアーキテクチャは、ローカル モジュール間の情報交換を強化するだけでなく、モデルの近視傾向を効果的に軽減します。
CIFAR-10、STL-10、SVHN、ImageNet の 4 つのベンチマーク データセットに対して行われた実験評価は、MLAAN と既存の教師ありローカル学習手法を統合することで、元の手法が大幅に強化されることを示しています。
特に注目すべき点は、MLAAN を使用すると、GPU メモリを節約しながら、最適なパフォーマンスの点で、ローカル学習方法がエンドツーエンドのトレーニング アプローチより包括的に優れたパフォーマンスを発揮できるようになります。

要約(オリジナル)

End-to-end (E2E) training approaches are commonly plagued by high memory consumption, reduced efficiency in training, challenges in model parallelization, and suboptimal biocompatibility. Local learning is considered a novel interactive training method that holds promise as an alternative to E2E. Nonetheless, conventional local learning methods fall short in achieving high model accuracy due to inadequate local inter-module interactions. In this paper, we introduce a new model known as the Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network (MLAAN). MLAAN features an innovative supervised local learning approach coupled with a robust reinforcement module. This dual-component design enables the MLAAN to integrate smoothly with established local learning techniques, thereby enhancing the efficacy of the foundational methods. The method simultaneously acquires the local and global features of the model separately by constructing an independent auxiliary network and a cascade auxiliary network on the one hand and incorporates a leap augmented module, which serves to counteract the reduced learning capacity often associated with weaker supervision. This architecture not only augments the exchange of information amongst the local modules but also effectively mitigates the model’s tendency toward myopia. The experimental evaluations conducted on four benchmark datasets, CIFAR-10, STL-10, SVHN, and ImageNet, demonstrate that the integration of MLAAN with existing supervised local learning methods significantly enhances the original methodologies. Of particular note, MLAAN enables local learning methods to comprehensively outperform end-to-end training approaches in terms of optimal performance while saving GPU memory.

arxiv情報

著者 Yuming Zhang,Shouxin Zhang,Peizhe Wang,Feiyu Zhu,Dongzhi Guan,Jiabin Liu,Changpeng Cai
発行日 2024-06-24 13:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク