要約
最小限の計算オーバーヘッドで大規模な言語モデル(LLMS)を微調整することは、リソースの制約の下でそれらを下流のタスクに効率的に適応させるために不可欠です。
低ランク適応(LORA)などのパラメーター効率の高い微調整(PEFT)メソッドは、パラメーターの小さなサブセットのみを更新することにより、これを容易にします。
しかし、最近の研究では、LORAは、特にスペクトル特性の観点から、その学習行動において完全な微調整(完全なFT)とは異なることが示されています。
これらの発見に動機付けられて、微調整された重量のスペクトル特性に基づいた最初の理論的に接地されたPEFT法であるPICAを提案します。
PICAは、事前に訓練された重量の低ランク列の部分空間に勾配を投影し、完全なFTとより密接に整合した学習パターンを示します。
さらに、PICAと重量共有を組み合わせることで、パフォーマンスを損なうことなくトレーニング可能なパラメーターの数を大幅に削減し、13倍のトレーニング可能なパラメーターを使用してLORAよりも優れたパフォーマンスを実現できることを示しています。
広範な実験は、PICAが既存のPEFTメソッドと比較して最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Fine-tuning large language models (LLMs) with minimal computational overhead is essential for efficiently adapting them to downstream tasks under resource constraints. Parameter-efficient fine-tuning (PEFT) methods, such as Low-Rank Adaptation (LoRA), facilitate this by updating only a small subset of parameters. However, recent studies show that LoRA diverges from full fine-tuning (Full FT) in its learning behavior, particularly in terms of spectral properties. Motivated by these findings, we propose PiCa, the first theoretically grounded PEFT method based on the spectral properties of fine-tuned weights. PiCa projects gradients onto the low-rank column subspace of pre-trained weights and exhibits learning patterns more closely aligned with Full FT. Furthermore, we show that combining PiCa with weight sharing drastically reduces the number of trainable parameters without compromising performance, enabling to achieve superior performance than LoRA using 13x fewer trainable parameters. Extensive experiments demonstrate PiCa achieves the state-of-the-art performance compared to existing PEFT methods.
arxiv情報
著者 | Junseo Hwang,Wonguk Cho,Taesup Kim |
発行日 | 2025-05-26 16:52:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google