要約
適応勾配法は深層学習で広く使用されていますが、文献で証明されている収束速度はすべて SGD よりも遅く、特に次元への依存性が顕著です。
この論文では、古典的な RMSProp とその運動量拡張を考慮し、$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1 の収束率を確立します。
\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$ は、有界勾配仮定なしの $\ell_1$ ノルムによって測定されます。ここで、$d$ は、
最適化変数、$T$ は反復回数、$C$ は SGD の最適収束率に現れるものと同じ定数です。
収束率は、次元 $d$ を除くすべての係数に関して下限と一致します。
非常に大きな $d$ の問題では $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ なので、収束率は
$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{
$\|\nabla f(x)\|_1=\varTheta(\sqrt{d}\|\nabla f(x)\|_2)$ の理想的な場合の SGD の 1/4}})$ レート。
要約(オリジナル)
Although adaptive gradient methods have been extensively used in deep learning, their convergence rates proved in the literature are all slower than that of SGD, particularly with respect to their dependence on the dimension. This paper considers the classical RMSProp and its momentum extension and establishes the convergence rate of $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$ measured by $\ell_1$ norm without the bounded gradient assumption, where $d$ is the dimension of the optimization variable, $T$ is the iteration number, and $C$ is a constant identical to that appeared in the optimal convergence rate of SGD. Our convergence rate matches the lower bound with respect to all the coefficients except the dimension $d$. Since $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ for problems with extremely large $d$, our convergence rate can be considered to be analogous to the $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$ rate of SGD in the ideal case of $\|\nabla f(x)\|_1=\varTheta(\sqrt{d}\|\nabla f(x)\|_2)$.
arxiv情報
著者 | Huan Li,Zhouchen Lin |
発行日 | 2024-04-15 13:07:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google