要約
低ランクのアダプターを使用すると、少数のパラメーターのみで大規模なモデルを微調整できるため、ストレージ コストが削減され、致命的な忘れのリスクが最小限に抑えられます。
ただし、収束性が低く、最適化に課題が生じることがよくあります。
これらの課題を克服するために、推論コストを増加させることなくトレーニングを加速する過剰パラメータ化アプローチを導入します。
この方法では、層ごとに個別の MLP と学習された埋め込みを使用して、低ランクの適応を再パラメータ化します。
学習された埋め込みは MLP に入力され、アダプター パラメーターが生成されます。
このような過剰なパラメータ化は、適応学習率と勢いとして暗黙的に機能し、最適化を加速することが示されています。
推論時に、MLP を破棄して、標準の低ランク アダプターを残すことができます。
小さいながらも困難なプロキシ タスクに対する MLP のオーバーパラメータ化の影響を研究するために、行列因数分解に MLP を実装したところ、より高速な収束とより低い最終損失が達成されることがわかりました。
このアプローチを大規模なタスクに拡張すると、ドメイン全体で一貫したパフォーマンスの向上が観察されます。
視覚言語タスクの改善と、特に画像生成の顕著な増加を達成し、CMMD スコアが最大 15 ポイント向上しました。
要約(オリジナル)
Low-rank adapters enable fine-tuning of large models with only a small number of parameters, thus reducing storage costs and minimizing the risk of catastrophic forgetting. However, they often pose optimization challenges, with poor convergence. To overcome these challenges, we introduce an over-parameterized approach that accelerates training without increasing inference costs. This method reparameterizes low-rank adaptation by employing a separate MLP and learned embedding for each layer. The learned embedding is input to the MLP, which generates the adapter parameters. Such overparamaterization has been shown to implicitly function as an adaptive learning rate and momentum, accelerating optimization. At inference time, the MLP can be discarded, leaving behind a standard low-rank adapter. To study the effect of MLP overparameterization on a small yet difficult proxy task, we implement it for matrix factorization, and find it achieves faster convergence and lower final loss. Extending this approach to larger-scale tasks, we observe consistent performance gains across domains. We achieve improvements in vision-language tasks and especially notable increases in image generation, with CMMD scores improving by up to 15 points.
arxiv情報
著者 | Piotr Teterwak,Kate Saenko,Bryan A. Plummer,Ser-Nam Lim |
発行日 | 2024-12-13 18:55:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google