要約
この論文では、(大規模な) ニューラル ネットワーク トレーニングを安定化するための原理的な方法としての線形補間の理論的分析を紹介します。
私たちは、最適化プロセスの不安定性は損失状況の非単調性によって引き起こされることが多いと主張し、非拡張演算子の理論を活用することで線形補間がどのように役立つかを示します。
緩和近似近似点 (RAPP) と呼ばれる新しい最適化スキームを構築します。これは、$\rho > -\tfrac{1} のみを必要とし、$\rho$-同単調問題の最後の反復収束率を達成するためのアンカーなしの最初の明示的手法です。
{2L}$。
この構築は、制約された正規化された設定まで拡張されます。
RAPP の内部オプティマイザーを置き換えることにより、基本オプティマイザーが勾配降下上昇であるとみなされる場合でも、共低単調問題の収束を確立する先読みアルゴリズムのファミリーを再発見します。
Lookahead が収束する共単調問題の範囲は、Lookahead が基本オプティマイザーのプロパティを継承することを利用してさらに拡張されます。
我々は、RAPP と Lookahead の両方に存在する線形補間の利点を実証する敵対的生成ネットワークでの実験で結果を裏付けます。
要約(オリジナル)
This paper presents a theoretical analysis of linear interpolation as a principled method for stabilizing (large-scale) neural network training. We argue that instabilities in the optimization process are often caused by the nonmonotonicity of the loss landscape and show how linear interpolation can help by leveraging the theory of nonexpansive operators. We construct a new optimization scheme called relaxed approximate proximal point (RAPP), which is the first explicit method without anchoring to achieve last iterate convergence rates for $\rho$-comonotone problems while only requiring $\rho > -\tfrac{1}{2L}$. The construction extends to constrained and regularized settings. By replacing the inner optimizer in RAPP we rediscover the family of Lookahead algorithms for which we establish convergence in cohypomonotone problems even when the base optimizer is taken to be gradient descent ascent. The range of cohypomonotone problems in which Lookahead converges is further expanded by exploiting that Lookahead inherits the properties of the base optimizer. We corroborate the results with experiments on generative adversarial networks which demonstrates the benefits of the linear interpolation present in both RAPP and Lookahead.
arxiv情報
著者 | Thomas Pethick,Wanyun Xie,Volkan Cevher |
発行日 | 2024-02-20 15:31:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google