Analysis of an Idealized Stochastic Polyak Method and its Application to Black-Box Model Distillation

要約

SPS $^*$と呼ばれる理想的な確率的ポリックステップサイズの一般的な収束定理を提供します。
凸性に加えて、局所的に滑らかで局所的にリプシッツの損失を特別なケースとして含む、局所的な予想される勾配境界のみを想定しています。
SPS $^*$は、ソリューションで評価されたすべてのトレーニングバッチの損失にアクセスする必要があるため、理想化されたものと呼びます。
また、グローバルなリプシッツ関数に最適な下限を達成するという点でも理想的であり、スムーズな設定でいつでも$ o(1/\ sqrt {t})$ $ $ o(1/\ sqrt {t})$を持つ最初のpolyakステップサイズです。
SPS $^*$を勢いと組み合わせて、最後の繰り返しに対して同じ好ましいレートを達成する方法を示します。
私たちの理論を検証するためのいくつかの実験と、教師GPT-2モデルをハイパーパラメーターチューニングなしでより小さな学生モデルに蒸留する方法を示すより実用的な設定で締めくくります。

要約(オリジナル)

We provide a general convergence theorem of an idealized stochastic Polyak step size called SPS$^*$. Besides convexity, we only assume a local expected gradient bound, that includes locally smooth and locally Lipschitz losses as special cases. We refer to SPS$^*$ as idealized because it requires access to the loss for every training batch evaluated at a solution. It is also ideal, in that it achieves the optimal lower bound for globally Lipschitz function, and is the first Polyak step size to have an $O(1/\sqrt{t})$ anytime convergence in the smooth setting. We show how to combine SPS$^*$ with momentum to achieve the same favorable rates for the last iterate. We conclude with several experiments to validate our theory, and a more practical setting showing how we can distill a teacher GPT-2 model into a smaller student model without any hyperparameter tuning.

arxiv情報

著者 Robert M. Gower,Guillaume Garrigos,Nicolas Loizou,Dimitris Oikonomou,Konstantin Mishchenko,Fabian Schaipp
発行日 2025-04-02 16:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 15B52, 62L20, 65Y20, 68W20, 68W40, 74S60, 90C06, 90C53, cs.LG, G.1.6 パーマリンク