A Coefficient Makes SVRG Effective

要約

Johnson & Zhang (2013) によって導入された Stochastic Variance Reduced Gradient (SVRG) は、理論的に説得力のある最適化手法です。
ただし、Defazio & Bottou (2019) が強調しているように、深層学習におけるその有効性はまだ証明されていません。
この研究では、現実世界のニューラル ネットワークの最適化における SVRG の可能性を実証します。
私たちの分析では、より深いネットワークでは、SVRG の分散低減項の強度が小さくなり、トレーニングが進むにつれて減少するはずであることがわかりました。
これにヒントを得て、乗算係数 $\alpha$ を導入して強度を制御し、線形減衰スケジュールを通じて調整します。
このメソッドを $\alpha$-SVRG と名付けます。
私たちの結果は、$\alpha$-SVRG がニューラル ネットワークをより効果的に最適化し、さまざまなアーキテクチャや画像分類データセットにわたって、ベースラインおよび標準 SVRG の両方と比較してトレーニング損失を一貫して削減することを示しています。
私たちの調査結果が、深層学習における分散削減技術のさらなる研究を促進することを願っています。
コードは https://github.com/davidyyd/alpha-SVRG で入手できます。

要約(オリジナル)

Stochastic Variance Reduced Gradient (SVRG), introduced by Johnson & Zhang (2013), is a theoretically compelling optimization method. However, as Defazio & Bottou (2019) highlights, its effectiveness in deep learning is yet to be proven. In this work, we demonstrate the potential of SVRG in optimizing real-world neural networks. Our analysis finds that, for deeper networks, the strength of the variance reduction term in SVRG should be smaller and decrease as training progresses. Inspired by this, we introduce a multiplicative coefficient $\alpha$ to control the strength and adjust it through a linear decay schedule. We name our method $\alpha$-SVRG. Our results show $\alpha$-SVRG better optimizes neural networks, consistently reducing training loss compared to both baseline and the standard SVRG across various architectures and image classification datasets. We hope our findings encourage further exploration into variance reduction techniques in deep learning. Code is available at https://github.com/davidyyd/alpha-SVRG.

arxiv情報

著者 Yida Yin,Zhiqiu Xu,Zhiyuan Li,Trevor Darrell,Zhuang Liu
発行日 2023-11-09 18:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク