The Expressive Power of Low-Rank Adaptation

要約

低ランク適応 (LoRA) は、重み行列の低ランク適応を活用するパラメーター効率の高い微調整手法であり、大規模言語モデルや拡散モデルなどの事前トレーニング済みモデルを微調整するための一般的な手法として登場しました。
実際には大きな成功を収めているにもかかわらず、LoRA の理論的基礎はほとんど解明されていないままです。
この論文は、LoRA の表現力を理論的に分析することで、このギャップを埋めるための第一歩を踏み出します。
完全に接続されたニューラル ネットワークの場合、LoRA ランク $\geq(\text{width of }f) \times の場合、LoRA は任意のモデル $f$ を適応させて、より小さなターゲット モデル $\overline{f}$ を正確に表現できることを証明します。
\frac{\text{深さ }\overline{f}}{\text{深さ }f}$。
また、LoRA ランクがしきい値よりも低い場合の近似誤差も定量化します。
Transformer ネットワークの場合、ランク $(\frac{\text{embedding size}}{2})$ LoRA アダプターを使用して、任意のモデルを同じサイズのターゲット モデルに適応できることを示します。

要約(オリジナル)

Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method that leverages low-rank adaptation of weight matrices, has emerged as a prevalent technique for fine-tuning pre-trained models such as large language models and diffusion models. Despite its huge success in practice, the theoretical underpinnings of LoRA have largely remained unexplored. This paper takes the first step to bridge this gap by theoretically analyzing the expressive power of LoRA. We prove that, for fully connected neural networks, LoRA can adapt any model $f$ to accurately represent any smaller target model $\overline{f}$ if LoRA-rank $\geq(\text{width of }f) \times \frac{\text{depth of }\overline{f}}{\text{depth of }f}$. We also quantify the approximation error when LoRA-rank is lower than the threshold. For Transformer networks, we show any model can be adapted to a target model of the same size with rank-$(\frac{\text{embedding size}}{2})$ LoRA adapters.

arxiv情報

著者 Yuchen Zeng,Kangwook Lee
発行日 2024-03-18 02:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク