A Guide Through the Zoo of Biased SGD

要約

確率的勾配降下法 (SGD) は、おそらく現代の機械学習において最も重要な単一アルゴリズムです。
不偏勾配推定量を使用する SGD は少なくとも半世紀にわたって広範囲に研究されてきましたが、偏向推定量に依存する SGD のバリエーションはまれです。
それにもかかわらず、近年、このトピックに対する関心が高まっています。
ただし、バイアス推定量を使用した SGD (BiasedSGD) に関する既存の文献は一貫性に欠けており、新しい論文はそれぞれ異なる仮定のセットに依存しており、それらがどのように接続されているかを明確に理解していないため、混乱が生じる可能性があります。
私たちは、既存の前提間のつながりを確立し、根底にある関係の包括的なマップを提示することで、このギャップに対処します。
さらに、以前のすべての仮定よりも弱いことが証明されている新しい一連の仮定を導入し、それを使用して凸型と非凸型の両方の設定における BiasedSGD の徹底的な分析を提示し、以前の結果を超える利点を提供します。
また、偏りのある推定量が偏りのない推定量よりも優れたパフォーマンスを示す例や、偏りのないバージョンが単純に利用できない例も提供します。
最後に、理論的発見を検証する実験結果を通じてフレームワークの有効性を実証します。

要約(オリジナル)

Stochastic Gradient Descent (SGD) is arguably the most important single algorithm in modern machine learning. Although SGD with unbiased gradient estimators has been studied extensively over at least half a century, SGD variants relying on biased estimators are rare. Nevertheless, there has been an increased interest in this topic in recent years. However, existing literature on SGD with biased estimators (BiasedSGD) lacks coherence since each new paper relies on a different set of assumptions, without any clear understanding of how they are connected, which may lead to confusion. We address this gap by establishing connections among the existing assumptions, and presenting a comprehensive map of the underlying relationships. Additionally, we introduce a new set of assumptions that is provably weaker than all previous assumptions, and use it to present a thorough analysis of BiasedSGD in both convex and non-convex settings, offering advantages over previous results. We also provide examples where biased estimators outperform their unbiased counterparts or where unbiased versions are simply not available. Finally, we demonstrate the effectiveness of our framework through experimental results that validate our theoretical findings.

arxiv情報

著者 Yury Demidovich,Grigory Malinovsky,Igor Sokolov,Peter Richtárik
発行日 2023-05-25 17:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク