General Cyclical Training of Neural Networks

要約

このホワイトペーパーでは、機械学習における「一般的な循環トレーニング」の原則について説明します。この場合、トレーニングは「簡単なトレーニング」で開始および終了し、「ハードトレーニング」は中期に行われます。
アルゴリズムの例(ハイパーパラメーターと損失関数を介して)、データベースの例、モデルベースの例など、ニューラルネットワークをトレーニングするためのいくつかの表現を提案します。
具体的には、周期的な重みの減衰、周期的なバッチサイズ、周期的な焦点損失、周期的なソフトマックス温度、周期的なデータ拡張、周期的な勾配クリッピング、周期的な半教師あり学習など、いくつかの新しい手法を紹介します。
さらに、周期的な重みの減衰、周期的なソフトマックス温度、および周期的な勾配クリッピング(この原理の3つの例として)が、トレーニングされたモデルのテスト精度のパフォーマンスに有益であることを示します。
さらに、一般的な循環トレーニングの観点からモデルベースの例(事前トレーニングや知識蒸留など)について説明し、一般的なトレーニング方法にいくつかの変更を推奨します。
要約すると、このペーパーでは、一般的な循環トレーニングの概念を定義し、この概念をニューラルネットワークのトレーニングに適用できるいくつかの具体的な方法について説明します。
再現性の精神で、私たちの実験で使用されたコードは\url{https://github.com/lnsmith54/CFL}で入手できます。

要約(オリジナル)

This paper describes the principle of ‘General Cyclical Training’ in machine learning, where training starts and ends with ‘easy training’ and the ‘hard training’ happens during the middle epochs. We propose several manifestations for training neural networks, including algorithmic examples (via hyper-parameters and loss functions), data-based examples, and model-based examples. Specifically, we introduce several novel techniques: cyclical weight decay, cyclical batch size, cyclical focal loss, cyclical softmax temperature, cyclical data augmentation, cyclical gradient clipping, and cyclical semi-supervised learning. In addition, we demonstrate that cyclical weight decay, cyclical softmax temperature, and cyclical gradient clipping (as three examples of this principle) are beneficial in the test accuracy performance of a trained model. Furthermore, we discuss model-based examples (such as pretraining and knowledge distillation) from the perspective of general cyclical training and recommend some changes to the typical training methodology. In summary, this paper defines the general cyclical training concept and discusses several specific ways in which this concept can be applied to training neural networks. In the spirit of reproducibility, the code used in our experiments is available at \url{https://github.com/lnsmith54/CFL}.

arxiv情報

著者 Leslie N. Smith
発行日 2022-06-16 17:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク