ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models

要約

パラメータ効率の良い微調整 (PEFT) は、大規模な言語モデルの時代における有効性と効率性について広く研究されています。
低ランク適応 (LoRA) は、人気のある代表的な方法として賞賛に値するパフォーマンスを示しています。
ただし、固定の固有ランクを使用して実装されているため、ダウンストリーム タスクにとっては理想的な設定ではない可能性があります。
より柔軟な下流タスク適応の必要性を認識し、私たちは LoRA の方法論を、適応プロセス中に固有ランクの動的な調整を可能にする低ランク適応割り当て (ALoRA) と呼ぶ革新的なアプローチに拡張しました。
まず、各 LoRA ランクの重要度スコアを効果的に推定できる新しい手法 AB-LoRA を提案します。
次に、AB-LoRA に基づいて、悪影響を与える大量の LoRA ランクを徐々に削減し、削減された LoRA 予算をより高いランクを必要とする重要な Transformer モジュールに割り当てます。
私たちはさまざまなタスクについて実験を行ってきましたが、その実験結果は、私たちの ALoRA メソッドが、同等の調整可能なパラメーターを使用して最近のベースラインを上回るパフォーマンスを発揮できることを示しています。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) is widely studied for its effectiveness and efficiency in the era of large language models. Low-rank adaptation (LoRA) has demonstrated commendable performance as a popular and representative method. However, it is implemented with a fixed intrinsic rank that might not be the ideal setting for the downstream tasks. Recognizing the need for more flexible downstream task adaptation, we extend the methodology of LoRA to an innovative approach we call allocating low-rank adaptation (ALoRA) that enables dynamic adjustments to the intrinsic rank during the adaptation process. First, we propose a novel method, AB-LoRA, that can effectively estimate the importance score of each LoRA rank. Second, guided by AB-LoRA, we gradually prune abundant and negatively impacting LoRA ranks and allocate the pruned LoRA budgets to important Transformer modules needing higher ranks. We have conducted experiments on various tasks, and the experimental results demonstrate that our ALoRA method can outperform the recent baselines with comparable tunable parameters.

arxiv情報

著者 Zequan Liu,Jiawen Lyn,Wei Zhu,Xing Tian,Yvette Graham
発行日 2024-04-15 13:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク