要約
SignSGD は、通信効率が高いため、非凸最適化で人気があります。
しかし、signSGD の既存の分析は、反復ごとにデータが置換されてサンプリングされるという仮定に依存しており、データがランダムに再シャッフルされ、アルゴリズムに順次入力される実際の実装に矛盾しています。
非凸最適化に対するランダム再シャッフル (SignRR) を使用した SignSGD の最初の収束結果を証明することで、このギャップを埋めます。
データセット サイズ $n$、データ パスのエポック数 $T$、確率的勾配 $\sigma^2$ の分散限界を考慮すると、SignRR が同じ収束率 $O(\log(nT
)/\sqrt{nT} + \|\sigma\|_1)$ をsignSGD \citep{bernstein2018signsgd}として使用します。
次に、分散低減勾配と運動量更新をそれぞれ活用する SignRVR と SignRVM を提示します。どちらも $O(\log(nT)/\sqrt{nT})$ に収束します。
SignSGD の分析とは対照的に、私たちの結果では、反復の総数 \citep{bernstein2018signsgd} と同じオーダーになるように、各反復で極端に大きなバッチ サイズを必要としたり、確率的勾配と真の勾配の符号が要素ごとに一致したりする必要はありません。
最小確率は 1/2 \citep{safaryan2021stochastic} です。
また、データが異なるマシンに分散されているケースにもアルゴリズムを拡張し、dist-SignRVR と dist-SignRVM を生成します。どちらも $O(\log(n_0T)/\sqrt{n_0T})$ に収束します。ここで、$n_0$ は、
単一マシンのデータセットのサイズ。
私たちは、ランダムに再シャッフルされた符号法が既存のベースラインと一致またはそれを超えることを検証する、シミュレートされた現実の問題に関する実験を通じて理論的発見を裏付けます。
要約(オリジナル)
signSGD is popular in nonconvex optimization due to its communication efficiency. Yet, existing analyses of signSGD rely on assuming that data are sampled with replacement in each iteration, contradicting the practical implementation where data are randomly reshuffled and sequentially fed into the algorithm. We bridge this gap by proving the first convergence result of signSGD with random reshuffling (SignRR) for nonconvex optimization. Given the dataset size $n$, the number of epochs of data passes $T$, and the variance bound of a stochastic gradient $\sigma^2$, we show that SignRR has the same convergence rate $O(\log(nT)/\sqrt{nT} + \|\sigma\|_1)$ as signSGD \citep{bernstein2018signsgd}. We then present SignRVR and SignRVM, which leverage variance-reduced gradients and momentum updates respectively, both converging at $O(\log(nT)/\sqrt{nT})$. In contrast with the analysis of signSGD, our results do not require an extremely large batch size in each iteration to be of the same order as the total number of iterations \citep{bernstein2018signsgd} or the signs of stochastic and true gradients match element-wise with a minimum probability of 1/2 \citep{safaryan2021stochastic}. We also extend our algorithms to cases where data are distributed across different machines, yielding dist-SignRVR and dist-SignRVM, both converging at $O(\log(n_0T)/\sqrt{n_0T})$, where $n_0$ is the dataset size of a single machine. We back up our theoretical findings through experiments on simulated and real-world problems, verifying that randomly reshuffled sign methods match or surpass existing baselines.
arxiv情報
| 著者 | Zhen Qin,Zhishuai Liu,Pan Xu | 
| 発行日 | 2023-10-24 16:25:13+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
