Prodigy: An Expeditiously Adaptive Parameter-Free Learner

要約

Adagrad や Adam などの適応手法における学習率を推定する問題を検討します。
学習率を最適に設定するために必要な、解 $D$ までの距離を証明可能に推定する 2 つの手法、Prodigy と Resetting について説明します。
私たちの技術は、学習率のない学習のための D-Adaptation メソッドを修正したものです。
私たちの方法では、D-Adaptation の収束率が $O(\sqrt{\log(D/d_0)})$ 倍向上します。ここで、$d_0$ は $D$ の初期推定値です。
12 の一般的なロジスティック回帰ベンチマーク データセット、CIFAR10 での VGG11 および ResNet-50 トレーニング、Imagenet での ViT トレーニング、IWSLT14 での LSTM トレーニング、Criteo データセットでの DLRM トレーニング、膝 MRI データセットでの VarNet、および RoBERTa と GPT でメソッドをテストします。
BookWiki の変圧器トレーニング。
私たちの実験結果は、私たちのアプローチが一貫して D-Adaptation を上回り、手動調整された Adam に近いテスト精度値に達することを示しています。

要約(オリジナル)

We consider the problem of estimating the learning rate in adaptive methods, such as Adagrad and Adam. We describe two techniques, Prodigy and Resetting, to provably estimate the distance to the solution $D$, which is needed to set the learning rate optimally. Our techniques are modifications of the D-Adaptation method for learning-rate-free learning. Our methods improve upon the convergence rate of D-Adaptation by a factor of $O(\sqrt{\log(D/d_0)})$, where $d_0$ is the initial estimate of $D$. We test our methods on 12 common logistic-regression benchmark datasets, VGG11 and ResNet-50 training on CIFAR10, ViT training on Imagenet, LSTM training on IWSLT14, DLRM training on Criteo dataset, VarNet on Knee MRI dataset, as well as RoBERTa and GPT transformer training on BookWiki. Our experimental results show that our approaches consistently outperform D-Adaptation and reach test accuracy values close to that of hand-tuned Adam.

arxiv情報

著者 Konstantin Mishchenko,Aaron Defazio
発行日 2023-09-21 16:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク