Learning-Rate-Free Learning by D-Adaptation


タイトル: D-Adaptationによる学習レートフリーの学習
– D-Adaptationは畳み込み型リプシッツ関数の最小化の収束の最適レートを漸近的に達成する、学習レートを自動的に設定する手法であり、バックトラッキングやラインサーチなしに、ステップごとに追加の関数値や勾配評価も必要ありません。
– 私たちのアプローチは、このクラスの超パラメータなしの最初の方法であり、収束速度に乗算対数因子が必要ではありません。
– 私たちは、SGDやAdamの変種について広範な実験を行い、大規模なビジョンや言語の問題を含む十数種類の機械学習問題で、手動チューニングされた学習率に自動的に一致する方法を示しています。
– オープンソースの実装は、\url{https://github.com/facebookresearch/dadaptation}で利用可能です。


D-Adaptation is an approach to automatically setting the learning rate which asymptotically achieves the optimal rate of convergence for minimizing convex Lipschitz functions, with no back-tracking or line searches, and no additional function value or gradient evaluations per step. Our approach is the first hyper-parameter free method for this class without additional multiplicative log factors in the convergence rate. We present extensive experiments for SGD and Adam variants of our method, where the method automatically matches hand-tuned learning rates across more than a dozen diverse machine learning problems, including large-scale vision and language problems. An open-source implementation is available at \url{https://github.com/facebookresearch/dadaptation}.


著者 Aaron Defazio,Konstantin Mishchenko
発行日 2023-04-03 18:39:30+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク