要約
最近の理論的結果は、順列ベースのSGDの収束速度(例えば、ランダム再構築SGD)が均一サンプリングSGDよりも速いことを示しています。
ただし、これらの研究は主に、エポック$ k $の数が条件数$ \ kappa $を超える大規模なエポック体制に焦点を当てています。
対照的に、$ k $が$ \ kappa $よりも小さい場合、ほとんど知られておらず、この小さなエポック体制で順列ベースのSGDがより速く収束できるかどうかは依然として挑戦的な公開問題です(Safran and Shamir、2021)。
このギャップを理解するためのステップとして、滑らかで強く凸関数について、素朴な決定論的変異、増分勾配降下(IGD)を研究します。
私たちの下限は、小さなエポック体制では、すべてのコンポーネント機能が強く凸である場合でも、IGDが驚くほど遅い収束を示すことができることを明らかにしています。
さらに、一部のコンポーネント関数が非凸になることが許可されている場合、IGDの最適性のギャップが小さなエポック体制全体で著しく悪化する可能性があることを証明します。
私たちの分析では、小さなエポック体制における順列ベースのSGDの収束特性は、コンポーネント関数の仮定によって劇的に異なる可能性があることが明らかになりました。
最後に、大規模なエポック体制におけるIGDのタイトな上限と下限を紙に補充します。
要約(オリジナル)
Recent theoretical results demonstrate that the convergence rates of permutation-based SGD (e.g., random reshuffling SGD) are faster than uniform-sampling SGD; however, these studies focus mainly on the large epoch regime, where the number of epochs $K$ exceeds the condition number $\kappa$. In contrast, little is known when $K$ is smaller than $\kappa$, and it is still a challenging open question whether permutation-based SGD can converge faster in this small epoch regime (Safran and Shamir, 2021). As a step toward understanding this gap, we study the naive deterministic variant, Incremental Gradient Descent (IGD), on smooth and strongly convex functions. Our lower bounds reveal that for the small epoch regime, IGD can exhibit surprisingly slow convergence even when all component functions are strongly convex. Furthermore, when some component functions are allowed to be nonconvex, we prove that the optimality gap of IGD can be significantly worse throughout the small epoch regime. Our analyses reveal that the convergence properties of permutation-based SGD in the small epoch regime may vary drastically depending on the assumptions on component functions. Lastly, we supplement the paper with tight upper and lower bounds for IGD in the large epoch regime.
arxiv情報
著者 | Yujun Kim,Jaeyoung Cha,Chulhee Yun |
発行日 | 2025-06-04 16:17:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google