要約
最新のディープ ネットワークの優れたパフォーマンスは、通常、コストのかかるトレーニング手順の代償となります。
このホワイト ペーパーでは、視覚的バックボーン (ビジョン トランスフォーマーなど) の効率的なトレーニングのための新しいカリキュラム学習アプローチを紹介します。
提案された方法は、ディープネットワークが主に、トレーニングの初期段階で各例内のいくつかの「学習しやすい」識別パターンを認識することを学習するという現象に触発されています。たとえば、画像の低周波成分とデータ拡張前の元の情報です。
.
この観察に基づいて、モデルが常に各エポックですべてのトレーニング データを活用するカリキュラムを提案します。一方、カリキュラムは各例の「学習しやすい」パターンのみを公開することから始まり、徐々に難しいパターンを導入します。
このアイデアを実装するために、1) 入力のフーリエ スペクトルにクロッピング操作を導入します。これにより、モデルは低周波成分のみから効率的に学習できます。2) 元の画像の特徴を公開することは、より弱い要素を採用することになることを示します。
データ増強。
結果として得られるアルゴリズム EfficientTrain は、シンプルで一般的ですが、驚くほど効果的です。
たとえば、精度を犠牲にすることなく、ImageNet-1K/22K でさまざまな一般的なモデル (ConvNeXts、DeiT、PVT、Swin/CSWin Transformers など) のトレーニング時間を ${1.5\times}$ 以上削減します。
.
自己教師あり学習(MAE)にも有効です。
コードは https://github.com/LeapLabTHU/EfficientTrain で入手できます。
要約(オリジナル)
The superior performance of modern deep networks usually comes at the price of a costly training procedure. In this paper, we present a novel curriculum learning approach for the efficient training of visual backbones (e.g., vision Transformers). The proposed method is inspired by the phenomenon that deep networks mainly learn to recognize some ‘easier-to-learn’ discriminative patterns within each example at earlier stages of training, e.g., the lower-frequency components of images and the original information before data augmentation. Driven by this observation, we propose a curriculum where the model always leverages all the training data at each epoch, while the curriculum starts with only exposing the ‘easier-to-learn’ patterns of each example, and introduces gradually more difficult patterns. To implement this idea, we 1) introduce a cropping operation in the Fourier spectrum of the inputs, which enables the model to learn from only the lower-frequency components efficiently, and 2) demonstrate that exposing the features of original images amounts to adopting weaker data augmentation. Our resulting algorithm, EfficientTrain, is simple, general, yet surprisingly effective. For example, it reduces the training time of a wide variety of popular models (e.g., ConvNeXts, DeiT, PVT, and Swin/CSWin Transformers) by more than ${1.5\times}$ on ImageNet-1K/22K without sacrificing the accuracy. It is effective for self-supervised learning (i.e., MAE) as well. Code is available at https://github.com/LeapLabTHU/EfficientTrain.
arxiv情報
著者 | Yulin Wang,Yang Yue,Rui Lu,Tianjiao Liu,Zhao Zhong,Shiji Song,Gao Huang |
発行日 | 2022-11-17 17:38:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google