要約
理論的には、オーバーパラメーター化されたモデルで確率的勾配降下(SGD)を理解することで、今日実際に広く使用されているいくつかの最適化アルゴリズムの開発につながりました。
〜\ citet {Zou2021benign}による最近の研究は、リスクのバイアス分散分解に基づいて、テールの繰り返し平均化の有無にかかわらず、一定の学習速度を使用して線形回帰におけるSGD最適化の急激なレートを提供します。
私たちの作業では、単純な線形代数ツールに基づいて〜\ citep {zou2021benign}で提供される同じバイアスと分散境界を回復する単純化された分析を提供し、正の半定義(PSD)マトリックスでオペレーターを操作する要件をバイパスします。
私たちの研究により、線形回帰に関するSGDの分析が非常にアクセスしやすくなり、ミニバッチと学習レートのスケジューリングをさらに分析し、現実的なモデルのトレーニングの改善につながると考えています。
要約(オリジナル)
Theoretically understanding stochastic gradient descent (SGD) in overparameterized models has led to the development of several optimization algorithms that are widely used in practice today. Recent work by~\citet{zou2021benign} provides sharp rates for SGD optimization in linear regression using constant learning rate, both with and without tail iterate averaging, based on a bias-variance decomposition of the risk. In our work, we provide a simplified analysis recovering the same bias and variance bounds provided in~\citep{zou2021benign} based on simple linear algebra tools, bypassing the requirement to manipulate operators on positive semi-definite (PSD) matrices. We believe our work makes the analysis of SGD on linear regression very accessible and will be helpful in further analyzing mini-batching and learning rate scheduling, leading to improvements in the training of realistic models.
arxiv情報
著者 | Alexandru Meterez,Depen Morwani,Costin-Andrei Oncescu,Jingfeng Wu,Cengiz Pehlevan,Sham Kakade |
発行日 | 2025-06-18 15:10:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google