New Perspectives on the Polyak Stepsize: Surrogate Functions and Negative Results

要約

PolyAKの階段化は、凸の最適化における基本的なステップサイズであることが証明されており、広範囲の仮定にわたって最適な勾配降下率を与えています。
Polyakの階段状の普遍性は、理論的保証と強力な経験的パフォーマンスを備えた多くの確率的バリアントにも影響を与えました。
多くの理論的結果にもかかわらず、収束特性とpolyakの継承またはそのバリアントの欠点の理解は、異なる分析で不完全で骨折しています。
私たちは、Polyakが代理損失の勾配降下として、Polyakの階段化とそのバリアントのための新しい、統一された、単純な視点を提案します。
各バリアントは、保証された局所曲率に適応するステップサイズを使用して、代理関数を最小限に抑えることと同等であることを示します。
次に、一般的な代理損失の視点を使用して、異なる仮定にわたる既存のバリアントの統一分析を提供します。
さらに、不均一な結果がいくつかの上限の結果が実際に現実であることを証明する多くの否定的な結果を示しています。

要約(オリジナル)

The Polyak stepsize has been proven to be a fundamental stepsize in convex optimization, giving near optimal gradient descent rates across a wide range of assumptions. The universality of the Polyak stepsize has also inspired many stochastic variants, with theoretical guarantees and strong empirical performance. Despite the many theoretical results, our understanding of the convergence properties and shortcomings of the Polyak stepsize or its variants is both incomplete and fractured across different analyses. We propose a new, unified, and simple perspective for the Polyak stepsize and its variants as gradient descent on a surrogate loss. We show that each variant is equivalent to minimize a surrogate function with stepsizes that adapt to a guaranteed local curvature. Our general surrogate loss perspective is then used to provide a unified analysis of existing variants across different assumptions. Moreover, we show a number of negative results proving that the non-convergence results in some of the upper bounds is indeed real.

arxiv情報

著者 Francesco Orabona,Ryan D’Orazio
発行日 2025-05-26 17:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク