LoRA vs Full Fine-tuning: An Illusion of Equivalence

要約

微調整は、事前トレーニングされた大規模な言語モデルを下流のタスクに適応させるための重要なパラダイムです。
最近、低ランク適応 (LoRA) のような手法は、トレーニング可能なパラメーターの数を大幅に減らしながら、さまざまなタスクで完全に微調整されたモデルのパフォーマンスに匹敵することが示されました。
両方の手法が同様に正確なモデルを学習する設定であっても、 \emph{学習された解は本当に同等ですか?} 私たちは、スペクトル特性のレンズを通してモデルの重み行列を分析することによって、異なる微調整手法が事前学習済みモデルをどのように変化させるかを研究します。
完全な微調整と LoRA では、特異値分解が非常に異なる構造を示す重み行列が生成されることがわかりました。
さらに、微調整されたモデル自体は、適応タスクの分布の外でテストされた場合に、明確な一般化動作を示します。
より具体的には、まず、LoRA でトレーニングされた重み行列に、\emph{侵入者の次元} と呼ばれる新しい高ランクの特異ベクトルがあることを示します。
完全な微調整中は、侵入者の寸法は表示されません。
次に、侵入者次元を持つ LoRA モデルは、ターゲット タスクの完全な微調整と同様のパフォーマンスを達成しているにもかかわらず、事前トレーニング分布のモデルとしては劣り、複数のタスクに連続して適応する堅牢性が低いことを示します。
ランクが安定した高ランクの LoRA モデルは、同じタスクで低ランクの LoRA モデルと同等のパフォーマンスを発揮する場合でも、完全な微調整を厳密に反映します。
これらの結果は、LoRA と完全な微調整で更新されたモデルは、微調整された分布で同等に実行される場合でも、パラメーター空間の異なる部分にアクセスすることを示唆しています。
最後に、LoRA 微調整モデルに侵入者のディメンションが現れる理由、それが望ましくない理由、およびその影響を最小限に抑える方法を検討します。

要約(オリジナル)

Fine-tuning is a crucial paradigm for adapting pre-trained large language models to downstream tasks. Recently, methods like Low-Rank Adaptation (LoRA) have been shown to match the performance of fully fine-tuned models on various tasks with an extreme reduction in the number of trainable parameters. Even in settings where both methods learn similarly accurate models, \emph{are their learned solutions really equivalent?} We study how different fine-tuning methods change pre-trained models by analyzing the model’s weight matrices through the lens of their spectral properties. We find that full fine-tuning and LoRA yield weight matrices whose singular value decompositions exhibit very different structure; moreover, the fine-tuned models themselves show distinct generalization behaviors when tested outside the adaptation task’s distribution. More specifically, we first show that the weight matrices trained with LoRA have new, high-ranking singular vectors, which we call \emph{intruder dimensions}. Intruder dimensions do not appear during full fine-tuning. Second, we show that LoRA models with intruder dimensions, despite achieving similar performance to full fine-tuning on the target task, become worse models of the pre-training distribution and adapt less robustly to multiple tasks sequentially. Higher-rank, rank-stabilized LoRA models closely mirror full fine-tuning, even when performing on par with lower-rank LoRA models on the same tasks. These results suggest that models updated with LoRA and full fine-tuning access different parts of parameter space, even when they perform equally on the fine-tuned distribution. We conclude by examining why intruder dimensions appear in LoRA fine-tuned models, why they are undesirable, and how their effects can be minimized.

arxiv情報

著者 Reece Shuttleworth,Jacob Andreas,Antonio Torralba,Pratyusha Sharma
発行日 2024-10-28 17:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク