SGD and Weight Decay Provably Induce a Low-Rank Bias in Neural Networks

要約

ディープ ReLU ニューラル ネットワークをトレーニングする際に、低ランクの重み行列を学習するための確率的勾配降下 (SGD) のバイアスを研究します。
私たちの結果は、ミニバッチ SGD と重み減衰を使用してニューラル ネットワークをトレーニングすると、重み行列に対するランク最小化へのバイアスが生じることを示しています。
具体的には、小さいバッチ サイズ、高い学習率、または増加した重み減衰を使用すると、このバイアスがより顕著になることを理論的にも経験的にも示しています。
さらに、このバイアスを達成するには重量の減衰が必要であることを経験的に予測および観察しています。
これまでの文献とは異なり、私たちの分析はデータ、収束、または重み行列の最適性に関する仮定に依存しておらず、あらゆる幅や深さの幅広いニューラル ネットワーク アーキテクチャに適用されます。
最後に、このバイアスと一般化との関係を経験的に調査し、それが一般化にわずかな影響しか与えていないことを発見しました。

要約(オリジナル)

We study the bias of Stochastic Gradient Descent (SGD) to learn low-rank weight matrices when training deep ReLU neural networks. Our results show that training neural networks with mini-batch SGD and weight decay causes a bias towards rank minimization over the weight matrices. Specifically, we show, both theoretically and empirically, that this bias is more pronounced when using smaller batch sizes, higher learning rates, or increased weight decay. Additionally, we predict and observe empirically that weight decay is necessary to achieve this bias. Unlike previous literature, our analysis does not rely on assumptions about the data, convergence, or optimality of the weight matrices and applies to a wide range of neural network architectures of any width or depth. Finally, we empirically investigate the connection between this bias and generalization, finding that it has a marginal effect on generalization.

arxiv情報

著者 Tomer Galanti,Zachary S. Siegel,Aparna Gupte,Tomaso Poggio
発行日 2023-10-06 16:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク