要約
この論文では、Hu et al. によって最初に導入された低ランク適応 (LoRA) が適用されることを示します。
(2021) は、幅 (埋め込み寸法) が大きいモデルの次善の微調整につながります。
これは、LoRA のアダプター行列 A と B が同じ学習率で更新されるためです。
幅の広いネットワークのスケーリング引数を使用して、A と B に同じ学習率を使用しても効率的な特徴学習ができないことを示します。
次に、LoRA のこの準最適性は、適切に選択された比率で LoRA アダプター行列 A と B に異なる学習率を設定するだけで修正できることを示します。
この提案されたアルゴリズムを LoRA$+$ と呼びます。
私たちの広範な実験では、LoRA$+$ は LoRA と同じ計算コストで、パフォーマンス ($\%$ の 1 ~ 2 回の向上) と速度の微調整 ($\sim$ の最大 2 倍の SpeedUp) を向上させました。
要約(オリジナル)
In this paper, we show that Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021) leads to suboptimal finetuning of models with large width (embedding dimension). This is due to the fact that adapter matrices A and B in LoRA are updated with the same learning rate. Using scaling arguments for large width networks, we demonstrate that using the same learning rate for A and B does not allow efficient feature learning. We then show that this suboptimality of LoRA can be corrected simply by setting different learning rates for the LoRA adapter matrices A and B with a well-chosen ratio. We call this proposed algorithm LoRA$+$. In our extensive experiments, LoRA$+$ improves performance (1-2 $\%$ improvements) and finetuning speed (up to $\sim$ 2X SpeedUp), at the same computational cost as LoRA.
arxiv情報
著者 | Soufiane Hayou,Nikhil Ghosh,Bin Yu |
発行日 | 2024-02-19 18:33:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google