要約
最適化停止ステップ T の指定を必要としない既存の学習率スケジュールは、T に依存する学習率スケジュールよりも大幅に優れています。私たちは、スケジュールの使用を完全に回避することで、この停止時間の必要性を回避するアプローチを提案します。
凸問題から大規模な深層学習問題まで、幅広い問題群にわたってスケジュールと比較して最先端のパフォーマンスを示します。
私たちのスケジュールフリーのアプローチでは、標準のオプティマイザに追加のハイパーパラメータを導入しません。
私たちの方法は、スケジューリングと反復平均を統合するという私たちが開発した新しい理論の直接の結果です。
私たちのメソッドのオープンソース実装が利用可能です (https://github.com/facebookresearch/schedule_free)。
要約(オリジナル)
Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the need for this stopping time by eschewing the use of schedules entirely, while exhibiting state-of-the-art performance compared to schedules across a wide family of problems ranging from convex problems to large-scale deep learning problems. Our Schedule-Free approach introduces no additional hyper-parameters over standard optimizers with momentum. Our method is a direct consequence of a new theory we develop that unifies scheduling and iterate averaging. An open source implementation of our method is available (https://github.com/facebookresearch/schedule_free).
arxiv情報
著者 | Aaron Defazio,Xingyu,Yang,Harsh Mehta,Konstantin Mishchenko,Ahmed Khaled,Ashok Cutkosky |
発行日 | 2024-05-24 16:20:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google