要約
貪欲低ランク学習 (GLRL) の理論は、深層学習の優れた一般化機能を説明することを目的としています。
これは、確率的勾配ベースのトレーニングが、トレーニング中のランクの段階的な増加を通じて、低ランクの解に向けてニューラル ネットワークを暗黙的に正規化することを証明します。
ただし、GLRL では重みの微小な初期化が必要ですが、鞍点であるため現実的ではないため、理論と実践の間にはギャップがあります。
この研究では、累積的な重みの更新に焦点を当てることで、無限小の初期化の仮定を取り除きます。
3 層線形ネットワークにおける重みの任意の直交初期化に対して、累積的な重みの更新が低ランクの増分軌道に従うことを証明します。
経験的に、私たちの理論が広範囲のニューラル ネットワーク (例: トランスフォーマー) および標準トレーニング アルゴリズム (例: SGD、Adam) に当てはまることを示しています。
ただし、ネットワークが低ランクでパラメータ化されていないため、既存のトレーニング アルゴリズムは低ランクの特性を利用して計算効率を向上させることはできません。
これを解決するために、新しいトレーニング アルゴリズム Incremental Low-Rank Learning (InRank) を設計します。これは、トレーニング中にランクを段階的に増やしながら、累積的な重みの更新を低ランクの行列として明示的に表現します。
私たちは GPT-2 で InRank を評価しました。その結果、InRank はフルランクの対応物と同等の予測パフォーマンスを達成しながら、トレーニング全体で合計ランクの最大 33% を必要とすることが示されました。
また、WikiText-103 で GPT-medium を最初からトレーニングする場合に、総トレーニング時間で 37%、モデル サイズで 36% の削減を達成する InRank の効率的なバージョンを提案します。
要約(オリジナル)
The theory of greedy low-rank learning (GLRL) aims to explain the impressive generalization capabilities of deep learning. It proves that stochastic gradient-based training implicitly regularizes neural networks towards low-rank solutions through a gradual increase of the rank during training. However, there is a gap between theory and practice since GLRL requires an infinitesimal initialization of the weights, which is not practical due to the fact that it is a saddle point. In this work, we remove the assumption of infinitesimal initialization by focusing on cumulative weight updates. We prove the cumulative weight updates follow an incremental low-rank trajectory for arbitrary orthogonal initialization of weights in a three-layer linear network. Empirically, we demonstrate that our theory holds on a broad range of neural networks (e.g., transformers) and standard training algorithms (e.g., SGD, Adam). However, existing training algorithms do not exploit the low-rank property to improve computational efficiency as the networks are not parameterized in low-rank. To remedy this, we design a new training algorithm Incremental Low-Rank Learning (InRank), which explicitly expresses cumulative weight updates as low-rank matrices while incrementally augmenting their ranks during training. We evaluate InRank on GPT-2, and our results indicate that InRank achieves comparable prediction performance as the full-rank counterpart while requiring at most 33% of the total ranks throughout training. We also propose an efficient version of InRank that achieves a reduction of 37% in total training time and 36% in model size when training GPT-medium on WikiText-103 from scratch.
arxiv情報
著者 | Jiawei Zhao,Yifei Zhang,Beidi Chen,Florian Schäfer,Anima Anandkumar |
発行日 | 2024-01-01 03:43:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google