要約
最新のディープ ネットワークの優れたパフォーマンスには、通常、コストのかかるトレーニング手順が伴います。
このホワイト ペーパーでは、視覚的バックボーン (ビジョン トランスフォーマーなど) を効率的にトレーニングするための新しいカリキュラム学習アプローチを紹介します。
私たちの仕事は、深いネットワークの固有の学習ダイナミクスに触発されています。初期のトレーニング段階で、モデルは主に、各例内のいくつかの「学習しやすい」識別パターン、たとえば低周波成分を認識することを学習することを実験的に示しています。
データ拡張前の画像と元の情報の。
この現象に駆り立てられて、各エポックでモデルが常にすべてのトレーニング データを活用するカリキュラムを提案します。カリキュラムは、各例の「学習しやすい」パターンのみを公開することから始まり、徐々により困難なパターンを導入します。
このアイデアを実装するために、1) 入力のフーリエ スペクトルにクロッピング操作を導入します。これにより、モデルは低周波成分のみから効率的に学習できるようになります。2) 元の画像の特徴を公開することは、より弱いデータを採用することになることを実証します。
拡張、および 3) 1) と 2) を統合し、貪欲な検索アルゴリズムを使用してカリキュラムの学習スケジュールを設計します。
結果として得られるアプローチである EfficientTrain は、シンプルで一般的ですが、驚くほど効果的です。
ハイパーパラメータ チューニングがない場合、ImageNet-1K/22K では、さまざまな一般的なモデル (ResNet、ConvNeXt、DeiT、PVT、Swin、CSWin など) のトレーニング ウォール タイムが 1.5 倍以上削減されます。
精度を犠牲にします。
自己教師あり学習(MAEなど)にも有効です。
コードは https://github.com/LeapLabTHU/EfficientTrain で入手できます。
要約(オリジナル)
The superior performance of modern deep networks usually comes with a costly training procedure. This paper presents a new curriculum learning approach for the efficient training of visual backbones (e.g., vision Transformers). Our work is inspired by the inherent learning dynamics of deep networks: we experimentally show that at an earlier training stage, the model mainly learns to recognize some ‘easier-to-learn’ discriminative patterns within each example, e.g., the lower-frequency components of images and the original information before data augmentation. Driven by this phenomenon, we propose a curriculum where the model always leverages all the training data at each epoch, while the curriculum starts with only exposing the ‘easier-to-learn’ patterns of each example, and introduces gradually more difficult patterns. To implement this idea, we 1) introduce a cropping operation in the Fourier spectrum of the inputs, which enables the model to learn from only the lower-frequency components efficiently, 2) demonstrate that exposing the features of original images amounts to adopting weaker data augmentation, and 3) integrate 1) and 2) and design a curriculum learning schedule with a greedy-search algorithm. The resulting approach, EfficientTrain, is simple, general, yet surprisingly effective. In the absence of hyper-parameter tuning, it reduces the training wall-time of a wide variety of popular models (e.g., ResNet, ConvNeXt, DeiT, PVT, Swin, and CSWin) by >1.5x on ImageNet-1K/22K without sacrificing the accuracy. It is also effective for self-supervised learning (e.g., MAE). Code is available at https://github.com/LeapLabTHU/EfficientTrain.
arxiv情報
著者 | Yulin Wang,Yang Yue,Rui Lu,Tianjiao Liu,Zhao Zhong,Shiji Song,Gao Huang |
発行日 | 2023-03-22 17:58:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google