EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training

要約

最新のビジュアル バックボーンの優れたパフォーマンスには、通常、コストのかかるトレーニング手順が伴います。
私たちは、カリキュラム学習のアイデアを元の定式化を超えて一般化することによって、つまり、より容易なデータからより困難なデータを使用してモデルをトレーニングすることによって、この問題に貢献します。
具体的には、トレーニング カリキュラムをソフト選択関数として再定式化します。これは、簡単なサンプル選択からより困難なサンプル選択を実行するのではなく、トレーニング中に各サンプル内で徐々により困難なパターンを明らかにします。
私たちの研究は、視覚的バックボーンの学習ダイナミクスに関する興味深い観察に触発されています。トレーニングの初期段階で、モデルは主に、データ内のいくつかの「学習しやすい」識別パターンを認識することを学習します。
これらのパターンは、周波数領域および空間領域を通じて観察すると、低周波成分と、歪みやデータ増大のない自然な画像コンテンツを組み込んでいます。
これらの発見に動機付けられて、モデルがすべての学習段階で常にすべてのトレーニング データを活用するカリキュラムを提案しますが、各例の「学びやすい」パターンへの曝露が最初に開始され、トレーニングとして徐々に難しいパターンが導入されます。
進歩します。
このアイデアを計算効率の高い方法で実装するために、入力のフーリエ スペクトルにクロッピング操作を導入し、モデルが低周波成分のみから学習できるようにします。
次に、データ拡張の強度を調整することで自然画像の内容を容易に公開できることを示します。
最後に、これらの側面を統合し、カスタマイズされた検索アルゴリズムを使用してカリキュラム スケジュールを設計します。
結果として得られたメソッド EfficientTrain++ は、シンプルで汎用的ですが、驚くほど効果的です。
精度を犠牲にすることなく、ImageNet-1K/22K 上でさまざまな人気モデルのトレーニング時間を 1.5 ~ 3.0 倍短縮します。
また、自己教師あり学習 (MAE など) における有効性も実証されています。

要約(オリジナル)

The superior performance of modern visual backbones usually comes with a costly training procedure. We contribute to this issue by generalizing the idea of curriculum learning beyond its original formulation, i.e., training models using easier-to-harder data. Specifically, we reformulate the training curriculum as a soft-selection function, which uncovers progressively more difficult patterns within each example during training, instead of performing easier-to-harder sample selection. Our work is inspired by an intriguing observation on the learning dynamics of visual backbones: during the earlier stages of training, the model predominantly learns to recognize some ‘easier-to-learn’ discriminative patterns in the data. These patterns, when observed through frequency and spatial domains, incorporate lower-frequency components, and the natural image contents without distortion or data augmentation. Motivated by these findings, we propose a curriculum where the model always leverages all the training data at every learning stage, yet the exposure to the ‘easier-to-learn’ patterns of each example is initiated first, with harder patterns gradually introduced as training progresses. To implement this idea in a computationally efficient way, we introduce a cropping operation in the Fourier spectrum of the inputs, enabling the model to learn from only the lower-frequency components. Then we show that exposing the contents of natural images can be readily achieved by modulating the intensity of data augmentation. Finally, we integrate these aspects and design curriculum schedules with tailored search algorithms. The resulting method, EfficientTrain++, is simple, general, yet surprisingly effective. It reduces the training time of a wide variety of popular models by 1.5-3.0x on ImageNet-1K/22K without sacrificing accuracy. It also demonstrates efficacy in self-supervised learning (e.g., MAE).

arxiv情報

著者 Yulin Wang,Yang Yue,Rui Lu,Yizeng Han,Shiji Song,Gao Huang
発行日 2024-05-14 17:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク