Tuning-Free Stochastic Optimization

要約

大規模な機械学習の問題により、ハイパーパラメータ調整のコストがこれまで以上に高額になります。
このため、オンザフライで自身を調整できるアルゴリズムの必要性が生じます。
関連する問題パラメーターに関する大まかなヒントのみが与えられた場合に、最適に調整された最適化アルゴリズムのパフォーマンスを多対数因数まで一致させることができる「チューニング不要」アルゴリズムの概念を形式化します。
特に、最適に調整された確率的勾配降下法 (SGD) と一致できるアルゴリズムを検討します。
最適化の領域が制限されている場合、チューニング不要の SGD マッチングが可能であり、いくつかの既存のアルゴリズムによって達成されることを示します。
無制限の領域にわたって凸滑らかな関数またはリプシッツ関数を最小化するタスクでは、チューニング不要の最適化は不可能であることを証明します。
無制限のドメイン上でもチューニング不要の最適化が可能な条件について説明します。
特に、ノイズ分布が十分に適切に動作している場合、最近提案された DoG および DoWG アルゴリズムはチューニング不要であることを示します。
滑らかで潜在的に非凸の関数の静止点を見つけるタスクでは、追加の多対数コストのみで、調整された SGD の最もよく知られている高確率収束率に一致する SGD のバリアントを提供します。
ただし、調整された SGD の最適な期待収束率に高確率で一致するアルゴリズムがないことを示す、あり得ない結果も得られます。

要約(オリジナル)

Large-scale machine learning problems make the cost of hyperparameter tuning ever more prohibitive. This creates a need for algorithms that can tune themselves on-the-fly. We formalize the notion of ‘tuning-free’ algorithms that can match the performance of optimally-tuned optimization algorithms up to polylogarithmic factors given only loose hints on the relevant problem parameters. We consider in particular algorithms that can match optimally-tuned Stochastic Gradient Descent (SGD). When the domain of optimization is bounded, we show tuning-free matching of SGD is possible and achieved by several existing algorithms. We prove that for the task of minimizing a convex and smooth or Lipschitz function over an unbounded domain, tuning-free optimization is impossible. We discuss conditions under which tuning-free optimization is possible even over unbounded domains. In particular, we show that the recently proposed DoG and DoWG algorithms are tuning-free when the noise distribution is sufficiently well-behaved. For the task of finding a stationary point of a smooth and potentially nonconvex function, we give a variant of SGD that matches the best-known high-probability convergence rate for tuned SGD at only an additional polylogarithmic cost. However, we also give an impossibility result that shows no algorithm can hope to match the optimal expected convergence rate for tuned SGD with high probability.

arxiv情報

著者 Ahmed Khaled,Chi Jin
発行日 2024-02-12 16:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク