要約
重要なオープンな問題は、パワーロースペクトルの2次問題に関するミニバッチSGD型アルゴリズムの理論的に実行可能な加速です。
非確率設定では、損失収束の最適な指数$ \ xi $は、$ l_t \ sim c_lt^{ – \ xi} $がプレーンGDの2倍であり、適切なスケジュールで重いボール(HB)を使用して達成可能です。
これは、ミニバッチノイズの存在下では機能しなくなりました。
補助速度ベクトルの任意の固定数$ m $(*メモリ – $ m $ algorithms*)で1次方法を考慮することにより、この課題に対処します。
最初に、このようなアルゴリズムの2つの形式間の同等性を証明し、適切な特性多項式の観点からそれらを説明します。
次に、信号とノイズの繁殖者の観点から損失の一般的な拡大を開発します。
それを使用して、固定安定メモリの損失 – $ m $アルゴリズムは常にプレーンGDの指数$ \ xi $を保持しますが、HBのそれを一般化する実効学習率に応じて異なる定数$ c_l $を持つことができます。
メモリ-1アルゴリズムでは、安定性を維持しながら$ C_L $を任意に小さくすることができることを証明します。
結果として、プレーンSGDの指数$ \ xi $を改善するためにヒューリスティックおよび実験的に示す時間依存スケジュールを持つメモリ-1アルゴリズムを提案します。
要約(オリジナル)
An important open problem is the theoretically feasible acceleration of mini-batch SGD-type algorithms on quadratic problems with power-law spectrum. In the non-stochastic setting, the optimal exponent $\xi$ in the loss convergence $L_t\sim C_Lt^{-\xi}$ is double that in plain GD and is achievable using Heavy Ball (HB) with a suitable schedule; this no longer works in the presence of mini-batch noise. We address this challenge by considering first-order methods with an arbitrary fixed number $M$ of auxiliary velocity vectors (*memory-$M$ algorithms*). We first prove an equivalence between two forms of such algorithms and describe them in terms of suitable characteristic polynomials. Then we develop a general expansion of the loss in terms of signal and noise propagators. Using it, we show that losses of stationary stable memory-$M$ algorithms always retain the exponent $\xi$ of plain GD, but can have different constants $C_L$ depending on their effective learning rate that generalizes that of HB. We prove that in memory-1 algorithms we can make $C_L$ arbitrarily small while maintaining stability. As a consequence, we propose a memory-1 algorithm with a time-dependent schedule that we show heuristically and experimentally to improve the exponent $\xi$ of plain SGD.
arxiv情報
著者 | Dmitry Yarotsky,Maksim Velikanov |
発行日 | 2025-03-10 13:02:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google