The Impact of Initialization on LoRA Finetuning Dynamics

要約

この論文では、Hu et al. によって最初に紹介された低ランク適応 (LoRA) における初期化の役割を研究します。
(2021年)。
基本的に、微調整のための初期化として事前トレーニング済みモデルから開始するには、B をゼロに初期化し、A をランダムに初期化する (PEFT パッケージのデフォルトの初期化)、またはその逆のいずれかを行うことができます。
どちらの場合も、積 BA は初期化時にゼロに等しいため、事前トレーニングされたモデルから微調整が開始されます。
これら 2 つの初期化スキームは一見似ています。
原則として、それらは同じパフォーマンスをもたらし、同じ最適な学習率を共有する必要があります。
これは誤った直感であり、最初のスキーム (B をゼロに初期化し、A をランダムに初期化する) が他のスキームと比較して平均して優れたパフォーマンスを生み出すことを示します。
私たちの理論的分析によると、この背後にある理由は、最初の初期化では 2 番目の初期化と比較して (出力の不安定性を引き起こすことなく) より大きな学習率を使用できるため、最初のスキームの学習がより効率的になることである可能性があります。
私たちは、LLM に関する広範な実験によって結果を検証します。

要約(オリジナル)

In this paper, we study the role of initialization in Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021). Essentially, to start from the pretrained model as initialization for finetuning, one can either initialize B to zero and A to random (default initialization in PEFT package), or vice-versa. In both cases, the product BA is equal to zero at initialization, which makes finetuning starts from the pretrained model. These two initialization schemes are seemingly similar. They should in-principle yield the same performance and share the same optimal learning rate. We demonstrate that this is an incorrect intuition and that the first scheme (initializing B to zero and A to random) on average yields better performance compared to the other scheme. Our theoretical analysis shows that the reason behind this might be that the first initialization allows the use of larger learning rates (without causing output instability) compared to the second initialization, resulting in more efficient learning of the first scheme. We validate our results with extensive experiments on LLMs.

arxiv情報

著者 Soufiane Hayou,Nikhil Ghosh,Bin Yu
発行日 2024-06-12 17:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク