Randomized Sharpness-Aware Training for Boosting Computational Efficiency in Deep Learning

要約

タイトル:深層学習の計算効率を向上させるためのランダム化シャープネス認識トレーニング

要約:
– Sharpness-Aware Learningアルゴリズム(SAM)などのシャープネス認識学習アルゴリズムを使用することで、モデルをフラットな極小値に収束させることで、先進的な性能を発揮することが示されています。
– しかし、これらのアルゴリズムは一般的に各トレーニングイテレーションで1回の追加の前進後退伝播を発生させるため、特にスケーラブルなモデルでは計算負荷が大きくなる可能性があります。
– そのため、我々はランダム化シャープネス認識トレーニング(RST)という簡単で効率的なトレーニング方法を提案します。
– RSTの最適化関数は、事前に定義されたスケジューリング関数によってランダムにベースアルゴリズム(SGD)とシャープネス認識アルゴリズム(SAM)から選択するためにベルヌーイ試行を行います。
– ベースアルゴリズムの混合により、伝播ペアの総数を大幅に削減できます。
– RSTの収束に関する理論的分析を行います。次に、さまざまな種類のスケジューリング関数の計算コストと効果を実証的に研究し、適切なスケジューリング関数を設定する方向性を与えます。
– さらに、RSTを一般的なフレームワーク(G-RST)に拡張し、任意のスケジューリング関数に対してシャープネスの正則化度合いを自由に調整できるようにします。G-RSTは、ほとんどの場合にSAMを上回り、50%以上の追加計算コストを節約できることを示す。

要約(オリジナル)

By driving models to converge to flat minima, sharpness-aware learning algorithms (such as SAM) have shown the power to achieve state-of-the-art performances. However, these algorithms will generally incur one extra forward-backward propagation at each training iteration, which largely burdens the computation especially for scalable models. To this end, we propose a simple yet efficient training scheme, called Randomized Sharpness-Aware Training (RST). Optimizers in RST would perform a Bernoulli trial at each iteration to choose randomly from base algorithms (SGD) and sharpness-aware algorithms (SAM) with a probability arranged by a predefined scheduling function. Due to the mixture of base algorithms, the overall count of propagation pairs could be largely reduced. Also, we give theoretical analysis on the convergence of RST. Then, we empirically study the computation cost and effect of various types of scheduling functions, and give directions on setting appropriate scheduling functions. Further, we extend the RST to a general framework (G-RST), where we can adjust regularization degree on sharpness freely for any scheduling function. We show that G-RST can outperform SAM in most cases while saving 50\% extra computation cost.

arxiv情報

著者 Yang Zhao,Hao Zhang,Xiuyuan Hu
発行日 2023-04-10 06:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T05, cs.AI, cs.LG, I.2.10 パーマリンク