Revisiting LARS for Large Batch Training Generalization of Neural Networks

要約

このペーパーでは、さまざまな設定にわたってレイヤーごとの適応スケーリング比 (LARS) を使用した大規模バッチ トレーニング手法を検討し、洞察を明らかにします。
ウォームアップを伴う LARS アルゴリズムは、冗長な比率スケーリングにより、早い段階でシャープなミニマイザーに閉じ込められる傾向があります。
さらに、後期フェーズで固定された急激な減少により、ディープ ニューラル ネットワークが初期フェーズのシャープ ミニマイザーを効果的にナビゲートすることが制限されます。
これらの発見に基づいて、初期段階での堅牢なトレーニングのためにウォームアップを構成可能なシグモイド状関数に置き換える新しいアルゴリズムである Time Varying LARS (TVLARS) を提案します。
TVLARS は初期段階で勾配探索を促進し、シャープ オプティマイザーを上回り、後のフェーズで堅牢性を確保するために徐々に LARS に移行します。
広範な実験により、TVLARS はほとんどの場合で一貫して LARS および LAMB を上回り、分類シナリオで最大 2\% の改善が見られることが実証されました。
特に、すべての自己教師あり学習のケースにおいて、TVLARS は LARS および LAMB よりも優れており、パフォーマンスが最大 10\% 向上しています。

要約(オリジナル)

This paper explores Large Batch Training techniques using layer-wise adaptive scaling ratio (LARS) across diverse settings, uncovering insights. LARS algorithms with warm-up tend to be trapped in sharp minimizers early on due to redundant ratio scaling. Additionally, a fixed steep decline in the latter phase restricts deep neural networks from effectively navigating early-phase sharp minimizers. Building on these findings, we propose Time Varying LARS (TVLARS), a novel algorithm that replaces warm-up with a configurable sigmoid-like function for robust training in the initial phase. TVLARS promotes gradient exploration early on, surpassing sharp optimizers and gradually transitioning to LARS for robustness in later phases. Extensive experiments demonstrate that TVLARS consistently outperforms LARS and LAMB in most cases, with up to 2\% improvement in classification scenarios. Notably, in all self-supervised learning cases, TVLARS dominates LARS and LAMB with performance improvements of up to 10\%.

arxiv情報

著者 Khoi Do,Duong Nguyen,Hoa Nguyen,Long Tran-Thanh,Nguyen-Hoang Tran,Quoc-Viet Pham
発行日 2024-08-27 17:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク