LoRA Training in the NTK Regime has No Spurious Local Minima

要約

低ランク適応 (LoRA) は、大規模言語モデル (LLM) のパラメーター効率の高い微調整のための標準的なアプローチとなっていますが、LoRA に関する理論的な理解は限られています。
この研究では、$N$ データ ポイントを使用したニューラル タンジェント カーネル (NTK) 領域での LoRA 微調整を理論的に分析し、次のことを示します: (i) 完全な微調整 (LoRA なし) では、ランク $r の低ランクの解が許容されます。
\lesssim \sqrt{N}$;
(ii) LoRA をランク $r\gtrsim \sqrt{N}$ で使用すると、偽の局所最小値が排除され、勾配降下法で低ランクの解を見つけることができます。
(iii) LoRA を使用して見つかった低ランクの解決策はよく一般化されています。

要約(オリジナル)

Low-rank adaptation (LoRA) has become the standard approach for parameter-efficient fine-tuning of large language models (LLM), but our theoretical understanding of LoRA has been limited. In this work, we theoretically analyze LoRA fine-tuning in the neural tangent kernel (NTK) regime with $N$ data points, showing: (i) full fine-tuning (without LoRA) admits a low-rank solution of rank $r\lesssim \sqrt{N}$; (ii) using LoRA with rank $r\gtrsim \sqrt{N}$ eliminates spurious local minima, allowing gradient descent to find the low-rank solutions; (iii) the low-rank solution found using LoRA generalizes well.

arxiv情報

著者 Uijeong Jang,Jason D. Lee,Ernest K. Ryu
発行日 2024-05-27 16:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク