EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones

要約

最新のディープ ネットワークの優れたパフォーマンスには、通常、コストのかかるトレーニング手順が伴います。
この論文では、視覚的バックボーン (ビジョン トランスフォーマーなど) を効率的にトレーニングするための新しいカリキュラム学習アプローチを紹介します。
私たちの研究は、ディープネットワークの固有の学習ダイナミクスに触発されています。モデルは、初期のトレーニング段階で主に、各例内のいくつかの「学習しやすい」識別パターン、たとえば低周波成分を認識することを学習することを実験的に示しています。
データ拡張前の画像と元の情報のデータ。
この現象に基づいて、モデルが常に各エポックのすべてのトレーニング データを活用するカリキュラムを提案します。一方、カリキュラムは各例の「学びやすい」パターンのみを公開することから始まり、徐々により難しいパターンを導入します。
このアイデアを実装するために、1) 入力のフーリエ スペクトルにトリミング操作を導入し、モデルが低周波成分のみから効率的に学習できるようにします。2) 元の画像の特徴を明らかにするには、より弱いデータを採用する必要があることを実証します。
3) 1) と 2) を統合し、貪欲検索アルゴリズムを使用してカリキュラムの学習スケジュールを設計します。
その結果として得られたアプローチである EfficientTrain は、シンプルで汎用的ですが、驚くほど効果的です。
既製の方法として、さまざまな人気モデル (ResNet、ConvNeXt、DeiT、PVT、Swin、CSWin など) の学習コストを ImageNet-1K/22K で 1.5 倍以上削減します。
精度を犠牲にすることなく。
自己教師あり学習(MAEなど)にも有効です。
コードは https://github.com/LeapLabTHU/EfficientTrain で入手できます。

要約(オリジナル)

The superior performance of modern deep networks usually comes with a costly training procedure. This paper presents a new curriculum learning approach for the efficient training of visual backbones (e.g., vision Transformers). Our work is inspired by the inherent learning dynamics of deep networks: we experimentally show that at an earlier training stage, the model mainly learns to recognize some ‘easier-to-learn’ discriminative patterns within each example, e.g., the lower-frequency components of images and the original information before data augmentation. Driven by this phenomenon, we propose a curriculum where the model always leverages all the training data at each epoch, while the curriculum starts with only exposing the ‘easier-to-learn’ patterns of each example, and introduces gradually more difficult patterns. To implement this idea, we 1) introduce a cropping operation in the Fourier spectrum of the inputs, which enables the model to learn from only the lower-frequency components efficiently, 2) demonstrate that exposing the features of original images amounts to adopting weaker data augmentation, and 3) integrate 1) and 2) and design a curriculum learning schedule with a greedy-search algorithm. The resulting approach, EfficientTrain, is simple, general, yet surprisingly effective. As an off-the-shelf method, it reduces the wall-time training cost of a wide variety of popular models (e.g., ResNet, ConvNeXt, DeiT, PVT, Swin, and CSWin) by >1.5x on ImageNet-1K/22K without sacrificing accuracy. It is also effective for self-supervised learning (e.g., MAE). Code is available at https://github.com/LeapLabTHU/EfficientTrain.

arxiv情報

著者 Yulin Wang,Yang Yue,Rui Lu,Tianjiao Liu,Zhao Zhong,Shiji Song,Gao Huang
発行日 2023-08-16 15:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク