Learning Rate Curriculum

要約

ほとんどのカリキュラム学習法は、データサンプルを難易度別にソートするアプローチを必要とするが、これはしばしば実行が面倒である。本研究では、学習率カリキュラム(LeRaC)と呼ばれる新しいカリキュラム学習アプローチを提案する。これは、ニューラルネットワークの各層に異なる学習率を使用することで、初期学習エポック中にデータに依存しないカリキュラムを作成する。具体的には、LeRaCは入力に近いニューラル・レイヤーほど高い学習率を割り当て、入力から遠いレイヤーほど徐々に学習率を下げていく。学習率は、最初の学習反復の間に様々なペースで増加し、すべてが同じ値に達するまで増加する。これ以降、ニューラル・モデルは通常通り学習される。これにより、難易度別に例を並べ替える必要がなく、どのようなニューラルネットワークにも適合する、モデルレベルのカリキュラム学習戦略が構築され、アーキテクチャに関係なく、より高いパフォーマンスレベルが生成される。我々は、コンピュータビジョン(CIFAR-10、CIFAR-100、Tiny ImageNet、ImageNet-200、Food-101、UTKFace、PASCAL VOC)、言語(BoolQ、QNLI、RTE)、オーディオ(ESC-50、CREMA-D)の各領域から12個のデータセットを用いて、様々な畳み込み(ResNet-18、Wide-ResNet-50、DenseNet-121、YOLOv5)、リカレント(LSTM)、トランスフォーマー(CvT、BERT、SepTr)アーキテクチャを考慮した包括的な実験を行う。本アプローチを、従来の学習レジーム、およびデータに依存しない最新のカリキュラム学習アプローチであるCurriculum by Smoothing (CBS)と比較する。CBSとは異なり、標準的な学習レジームに対する我々の性能向上は、全てのデータセットとモデルにおいて一貫している。さらに、学習時間の面でもCBSを大きく上回っています(LeRaCでは標準的な学習レジームと比較して追加コストはありません)。我々のコードはhttps://github.com/CroitoruAlin/LeRaC。

要約(オリジナル)

Most curriculum learning methods require an approach to sort the data samples by difficulty, which is often cumbersome to perform. In this work, we propose a novel curriculum learning approach termed Learning Rate Curriculum (LeRaC), which leverages the use of a different learning rate for each layer of a neural network to create a data-agnostic curriculum during the initial training epochs. More specifically, LeRaC assigns higher learning rates to neural layers closer to the input, gradually decreasing the learning rates as the layers are placed farther away from the input. The learning rates increase at various paces during the first training iterations, until they all reach the same value. From this point on, the neural model is trained as usual. This creates a model-level curriculum learning strategy that does not require sorting the examples by difficulty and is compatible with any neural network, generating higher performance levels regardless of the architecture. We conduct comprehensive experiments on 12 data sets from the computer vision (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), language (BoolQ, QNLI, RTE) and audio (ESC-50, CREMA-D) domains, considering various convolutional (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), recurrent (LSTM) and transformer (CvT, BERT, SepTr) architectures. We compare our approach with the conventional training regime, as well as with Curriculum by Smoothing (CBS), a state-of-the-art data-agnostic curriculum learning approach. Unlike CBS, our performance improvements over the standard training regime are consistent across all data sets and models. Furthermore, we significantly surpass CBS in terms of training time (there is no additional cost over the standard training regime for LeRaC). Our code is freely available at: https://github.com/CroitoruAlin/LeRaC.

arxiv情報

著者 Florinel-Alin Croitoru,Nicolae-Catalin Ristea,Radu Tudor Ionescu,Nicu Sebe
発行日 2024-07-05 08:51:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク