Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

要約

スケーリングの優位性と有効性にもかかわらず、数千億のパラメーターを持つ大規模なネットワークが生成されますが、オーバーパラメーター化されたモデルをトレーニングする必要性は依然として十分に理解されておらず、代替アプローチによって必ずしも高性能モデルのトレーニングが安価になるわけではありません。
このペーパーでは、大規模なニューラル ネットワークをトレーニングするための代替アプローチとして、低ランクのトレーニング手法を検討します。
低ランクの更新を利用して高ランクのネットワークをトレーニングする、ReLoRA と呼ばれる新しい方法を紹介します。
ReLoRA を最大 3 億 5,000 万のパラメーターを含むトランスフォーマー言語モデルの事前トレーニングに適用し、通常のニューラル ネットワーク トレーニングと同等のパフォーマンスを実証します。
さらに、モデルのサイズに応じて ReLoRA の効率が向上することが観察されており、数十億パラメータのネットワークを効率的にトレーニングするための有望なアプローチとなっています。
私たちの調査結果は、低ランクのトレーニング技術の可能性と、それがスケーリングの法則に及ぼす影響に光を当てています。

要約(オリジナル)

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.

arxiv情報

著者 Vladislav Lialin,Namrata Shivagunde,Sherin Muckatira,Anna Rumshisky
発行日 2023-07-13 19:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク