Last Iterate Convergence of Incremental Methods and Applications in Continual Learning

要約

インクリメンタル勾配法とインクリメンタル近接法は、有限和問題を解くために使用される最適化アルゴリズムの基本的なクラスであり、文献で広く研究されています。
しかし、収束の保証に関して言えば、非漸近的 (一次または近似) オラクルの複雑さの限界がごく最近になって取得され、ほぼ独占的に平均反復に適用されます。
継続学習のアプリケーションによって動機づけられ、増分勾配法と増分近接法の両方の最後の反復で最初の収束保証が得られます。一般的には、凸スムーズ (両方の場合) および凸リプシッツ (近接バリアントの場合) 設定です。
最後の反復に対する Oracle の複雑さの限界は、メソッドの両方のクラスについて、平均反復に対する最もよく知られている Oracle の複雑さの限界とほぼ一致します (つまり、平方根対数または対数係数まで一致します)。
さらに、重みを増加させながら反復の加重平均を行う結果を一般化します。これは、最後の反復と平均反復保証の間を補間していると見なすことができます。
さらに、私たちの結果を、更新の順序を入れ替えて研究した増分手法の変形にどのように一般化できるかについて説明します。
私たちの結果は、最先端技術と比較して増分法の最終反復保証を一般化します。これは、そのような結果は、無限に多くの解をもつ凸二次問題に対応する、過パラメータ化線形モデルについてのみ知られていたためです。

要約(オリジナル)

Incremental gradient methods and incremental proximal methods are a fundamental class of optimization algorithms used for solving finite sum problems, broadly studied in the literature. Yet, when it comes to their convergence guarantees, nonasymptotic (first-order or proximal) oracle complexity bounds have been obtained fairly recently, almost exclusively applying to the average iterate. Motivated by applications in continual learning, we obtain the first convergence guarantees for the last iterate of both incremental gradient and incremental proximal methods, in general convex smooth (for both) and convex Lipschitz (for the proximal variants) settings. Our oracle complexity bounds for the last iterate nearly match (i.e., match up to a square-root-log or a log factor) the best known oracle complexity bounds for the average iterate, for both classes of methods. We further obtain generalizations of our results to weighted averaging of the iterates with increasing weights, which can be seen as interpolating between the last iterate and the average iterate guarantees. Additionally, we discuss how our results can be generalized to variants of studied incremental methods with permuted ordering of updates. Our results generalize last iterate guarantees for incremental methods compared to state of the art, as such results were previously known only for overparameterized linear models, which correspond to convex quadratic problems with infinitely many solutions.

arxiv情報

著者 Xufeng Cai,Jelena Diakonikolas
発行日 2024-03-11 16:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク