LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation

要約

低ランク適応 (LoRA) は、現在最も一般的に使用されているパラメーター効率の良い微調整 (PEFT) 手法であり、各レイヤーに補助パラメーターを導入して、限られたコンピューティング リソースの下で事前トレーニングされたモデルを微調整します。
ただし、より大きなモデルにスケールアップする場合、トレーニング中に依然としてリソース消費の課題に直面しています。
これまでの研究のほとんどは、重要でないと思われる LoRA パラメーターを削除する枝刈り技術を使用してこの問題に取り組んできました。
それにもかかわらず、これらの取り組みは、パラメータ数、サイズ、勾配などの重要性を評価するために LoRA パラメータの特徴を分析するだけです。
実際、LoRA の出力 (LoRA パラメーターと隠れ状態の積) は、最終結果に直接影響します。
予備実験では、LoRA 要素の一部が非常に高い出力値を持ち、層の出力に大きな影響を与えることが示されています。
この観察に基づいて、私たちは LoRA-drop を提案します。
具体的には、LoRA-drop は、LoRA の出力に基づいて LoRA の重要性を評価します。
次に、重要なレイヤーの LoRA を保持し、他のレイヤーは同じ LoRA を共有します。
NLUおよびNLGタスクにおいて、さまざまなスケールのモデルを使用した豊富な実験を行っています。
結果は、LoRA-drop が、平均して LoRA パラメーターの 50% を維持しながら、完全な微調整および LoRA に匹敵するパフォーマンスを達成できることを示しています。

要約(オリジナル)

Low-Rank Adaptation (LoRA) is currently the most commonly used Parameter-efficient fine-tuning (PEFT) method, it introduces auxiliary parameters for each layer to fine-tune the pre-trained model under limited computing resources. However, it still faces resource consumption challenges during training when scaling up to larger models. Most previous studies have tackled this issue by using pruning techniques, which involve removing LoRA parameters deemed unimportant. Nonetheless, these efforts only analyze LoRA parameter features to evaluate their importance, such as parameter count, size, and gradient. In fact, the output of LoRA (product of LoRA parameter and hidden state), directly impacts the final results. Preliminary experiments indicate that a fraction of LoRA elements possesses significantly high output values, substantially influencing the layer output. Motivated by the observation, we propose LoRA-drop. Concretely, LoRA-drop evaluates the importance of LoRA based on the LoRA output. Then we retain LoRA for important layers and the other layers share the same LoRA. We conduct abundant experiments with models of different scales on NLU and NLG tasks. Results demonstrate that LoRA-drop can achieve performance comparable to full fine-tuning and LoRA, while retaining 50\% of the LoRA parameters on average.

arxiv情報

著者 Hongyun Zhou,Xiangyu Lu,Wang Xu,Conghui Zhu,Tiejun Zhao,Muyun Yang
発行日 2024-06-18 15:13:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク