要約
この研究では、古典的な低ランク行列因数分解問題を再検討し、そのような非凸で非滑らかな最適化の収束率を形成する際の初期化の重要な役割を明らかにします。
Nystrom 初期化を導入します。これにより、対称行列分解タスクと非対称行列分解タスクの両方におけるスケール勾配降下法 (ScaledGD) のグローバル収束が大幅に向上します。
具体的には、Nystrom 初期化を使用した ScaledGD が、線形レートのみが以前にわかっていた場合に二次収束を達成することを証明します。
さらに、この初期化を基礎モデルの微調整に一般的に使用される低ランク アダプター (LoRA) まで拡張します。
私たちのアプローチである NoRA、つまり Nystrom 初期化を使用した LoRA は、大規模な言語モデルと拡散モデルにおいて、1B から 7B パラメーターまでのさまざまなダウンストリーム タスクとモデル スケールにわたって優れたパフォーマンスを示します。
要約(オリジナル)
This work revisits the classical low-rank matrix factorization problem and unveils the critical role of initialization in shaping convergence rates for such nonconvex and nonsmooth optimization. We introduce Nystrom initialization, which significantly improves the global convergence of Scaled Gradient Descent (ScaledGD) in both symmetric and asymmetric matrix factorization tasks. Specifically, we prove that ScaledGD with Nystrom initialization achieves quadratic convergence in cases where only linear rates were previously known. Furthermore, we extend this initialization to low-rank adapters (LoRA) commonly used for finetuning foundation models. Our approach, NoRA, i.e., LoRA with Nystrom initialization, demonstrates superior performance across various downstream tasks and model scales, from 1B to 7B parameters, in large language and diffusion models.
arxiv情報
| 著者 | Bingcong Li,Liang Zhang,Aryan Mokhtari,Niao He | 
| 発行日 | 2024-10-24 17:58:21+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
