要約
遅延トレーニング方式を超えた、オーバーパラメータ化されたテンソル因数分解問題における暗黙的な正則化の厳密な分析を提供します。
行列因数分解の問題については、この現象が多くの研究で研究されています。
特に課題となっているのは、勾配降下法における暗黙的な正則化につながる普遍的な初期化戦略を設計することでした。
同時に、それは Cohen らによって主張されています。
アル。
2016 年には、テンソル因数分解を考慮することで、より一般的なクラスのニューラル ネットワークを捉えることができることがわかりました。
ただし、テンソルの場合、暗黙的な正則化は勾配フローまたは遅延トレーニング領域でのみ厳密に確立されています。
この論文では、勾配流れではなく勾配降下に関するこの種の最初のテンソル結果を証明します。
私たちは、画像データに対するこのモデルの関連性によって促進される、卵管テンソル積と、それに関連する低い卵管ランクの概念に焦点を当てます。
我々は、小さなランダム初期化を伴うオーバーパラメータ化されたテンソル因数分解モデルにおける勾配降下法が、低いチューブランクの解に対する暗黙的なバイアスを示すことを確立します。
私たちの理論的発見は、私たちの理論によって予測されるダイナミクスと小さなランダム初期化の使用の重要な役割を示す広範な数値シミュレーションのセットで示されています。
要約(オリジナル)
We provide a rigorous analysis of implicit regularization in an overparametrized tensor factorization problem beyond the lazy training regime. For matrix factorization problems, this phenomenon has been studied in a number of works. A particular challenge has been to design universal initialization strategies which provably lead to implicit regularization in gradient-descent methods. At the same time, it has been argued by Cohen et. al. 2016 that more general classes of neural networks can be captured by considering tensor factorizations. However, in the tensor case, implicit regularization has only been rigorously established for gradient flow or in the lazy training regime. In this paper, we prove the first tensor result of its kind for gradient descent rather than gradient flow. We focus on the tubal tensor product and the associated notion of low tubal rank, encouraged by the relevance of this model for image data. We establish that gradient descent in an overparametrized tensor factorization model with a small random initialization exhibits an implicit bias towards solutions of low tubal rank. Our theoretical findings are illustrated in an extensive set of numerical simulations show-casing the dynamics predicted by our theory as well as the crucial role of using a small random initialization.
arxiv情報
著者 | Santhosh Karnik,Anna Veselovska,Mark Iwen,Felix Krahmer |
発行日 | 2024-10-21 17:52:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google