Stable Nonconvex-Nonconcave Training via Linear Interpolation

要約

この論文では、(大規模な) ニューラル ネットワーク トレーニングを安定化するための原理的な方法としての線形補間の理論的分析を紹介します。
私たちは、最適化プロセスの不安定性は損失状況の非単調性によって引き起こされることが多いと主張し、非拡張演算子の理論を活用することで線形補間がどのように役立つかを示します。
緩和近似近接点 (RAPP) と呼ばれる新しい最適化スキームを構築します。これは、$\rho > -\tfrac{1} のみを必要としながら、$\rho$-コモノトーン問題の最後の反復収束率を達成する最初の 1-SCLI 手法です。
{2L}$。
この構築は、制約された正規化された設定まで拡張されます。
RAPP の内部オプティマイザーを置き換えることにより、基本オプティマイザーが勾配降下上昇であるとみなされる場合でも、共低単調問題の収束を確立する先読みアルゴリズムのファミリーを再発見します。
Lookahead が収束する共単調問題の範囲は、Lookahead が基本オプティマイザーのプロパティを継承することを利用してさらに拡張されます。
我々は、RAPP と Lookahead の両方に存在する線形補間の利点を実証する敵対的生成ネットワークでの実験で結果を裏付けます。

要約(オリジナル)

This paper presents a theoretical analysis of linear interpolation as a principled method for stabilizing (large-scale) neural network training. We argue that instabilities in the optimization process are often caused by the nonmonotonicity of the loss landscape and show how linear interpolation can help by leveraging the theory of nonexpansive operators. We construct a new optimization scheme called relaxed approximate proximal point (RAPP), which is the first 1-SCLI method to achieve last iterate convergence rates for $\rho$-comonotone problems while only requiring $\rho > -\tfrac{1}{2L}$. The construction extends to constrained and regularized settings. By replacing the inner optimizer in RAPP we rediscover the family of Lookahead algorithms for which we establish convergence in cohypomonotone problems even when the base optimizer is taken to be gradient descent ascent. The range of cohypomonotone problems in which Lookahead converges is further expanded by exploiting that Lookahead inherits the properties of the base optimizer. We corroborate the results with experiments on generative adversarial networks which demonstrates the benefits of the linear interpolation present in both RAPP and Lookahead.

arxiv情報

著者 Thomas Pethick,Wanyun Xie,Volkan Cevher
発行日 2024-01-12 14:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク