要約
滑らかな非凸最適化問題に取り組むために、ランダムな再シャッフルを伴う確率的勾配法 ($\mathsf{RR}$) を検討します。
$\mathsf{RR}$ は、実際、特にニューラル ネットワークのトレーニングに幅広く応用できます。
この研究では、まず $\mathsf{RR}$ のサンプリング手順の濃度特性を調査し、(期待せずに) $\varepsilon$ 以下の勾配を駆動するための新しい高確率サンプル複雑性保証を確立します。これは、効率を効果的に特徴づけます。
単一の $\mathsf{RR}$ 実行の。
私たちが導き出した複雑さは、追加の仮定を課したり、$\mathsf{RR}$ の更新ルールを変更したりすることなく、対数項までの既存の最良の期待値と一致します。
さらに、導出された高確率降下特性と確率的誤差の限界を活用することにより、$\mathsf{RR}$ ($\mathsf{RR}$-$\mathsf{sc} として示される) の単純で計算可能な停止基準を提案します。
$)。
この基準は有限回の反復後にトリガーされることが保証されており、$\mathsf{RR}$-$\mathsf{sc}$ は高い確率で $\varepsilon$ を下回る勾配を持つ反復を返します。
さらに、提案された停止基準に基づいて、静止点の近くで追加のランダム化摂動手順を含む摂動ランダム再シャッフル法 ($\mathsf{p}$-$\mathsf{RR}$) を設計します。
$\mathsf{p}$-$\mathsf{RR}$ は、確率的勾配についてサブガウステール型の仮定を行うことなく、厳密な鞍点を確実に回避し、高確率で効率的に 2 次の静止点を返すことがわかります。
エラー。
最後に、理論的発見を裏付けるために、ニューラル ネットワークのトレーニングに関する数値実験を行います。
要約(オリジナル)
We consider the stochastic gradient method with random reshuffling ($\mathsf{RR}$) for tackling smooth nonconvex optimization problems. $\mathsf{RR}$ finds broad applications in practice, notably in training neural networks. In this work, we first investigate the concentration property of $\mathsf{RR}$’s sampling procedure and establish a new high probability sample complexity guarantee for driving the gradient (without expectation) below $\varepsilon$, which effectively characterizes the efficiency of a single $\mathsf{RR}$ execution. Our derived complexity matches the best existing in-expectation one up to a logarithmic term while imposing no additional assumptions nor changing $\mathsf{RR}$’s updating rule. Furthermore, by leveraging our derived high probability descent property and bound on the stochastic error, we propose a simple and computable stopping criterion for $\mathsf{RR}$ (denoted as $\mathsf{RR}$-$\mathsf{sc}$). This criterion is guaranteed to be triggered after a finite number of iterations, and then $\mathsf{RR}$-$\mathsf{sc}$ returns an iterate with its gradient below $\varepsilon$ with high probability. Moreover, building on the proposed stopping criterion, we design a perturbed random reshuffling method ($\mathsf{p}$-$\mathsf{RR}$) that involves an additional randomized perturbation procedure near stationary points. We derive that $\mathsf{p}$-$\mathsf{RR}$ provably escapes strict saddle points and efficiently returns a second-order stationary point with high probability, without making any sub-Gaussian tail-type assumptions on the stochastic gradient errors. Finally, we conduct numerical experiments on neural network training to support our theoretical findings.
arxiv情報
著者 | Hengxu Yu,Xiao Li |
発行日 | 2023-11-20 15:17:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google