LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

要約

大規模言語モデル (LLM) が初めて登場して以来、機械学習コミュニティは目覚ましい進歩を目の当たりにしてきましたが、その膨大なメモリ消費が大規模トレーニングの大きな障害となっています。
この問題を軽減するために、低ランク適応 (LoRA) などのパラメータ効率の良い微調整技術が提案されていますが、そのパフォーマンスは、ほとんどの大規模な微調整設定における完全なパラメータ トレーニングにまだ匹敵しません。
この欠陥を補おうとして、微調整タスクに関する LoRA の層ごとの特性を調査し、さまざまな層にわたる重み基準の異常な歪みを観察しました。
この重要な観察を利用して、驚くほどシンプルなトレーニング戦略が発見されました。これは、LoRA と同じくらい低いメモリコストで、幅広い設定で LoRA とフルパラメータトレーニングの両方を上回るパフォーマンスを発揮します。
これを LoRA の有望な代替手段である Layerwise Importance Sampled AdamW (LISA) と名付けます。これは、LLM のさまざまなレイヤーに重要度サンプリングのアイデアを適用し、最適化中にほとんどの中間レイヤーをランダムにフリーズします。
実験結果によると、GPU メモリ消費量が同程度かそれより少ない場合、LISA はダウンストリームの微調整タスクにおいて LoRA を上回ったり、フル パラメータ チューニングを上回ったりします。MT-Bench スコアに関しては、LISA が一貫して $11\%$-$37\%$ 以上 LoRA を上回っています。

大規模モデル、特に LLaMA-2-70B では、LISA は MT-Bench、GSM8K、および PubMedQA で LoRA と同等以上のパフォーマンスを達成し、さまざまなドメインにわたってその有効性を実証しています。

要約(オリジナル)

The machine learning community has witnessed impressive advancements since the first appearance of large language models (LLMs), yet their huge memory consumption has become a major roadblock to large-scale training. Parameter Efficient Fine-Tuning techniques such as Low-Rank Adaptation (LoRA) have been proposed to alleviate this problem, but their performance still fails to match full parameter training in most large-scale fine-tuning settings. Attempting to complement this deficiency, we investigate layerwise properties of LoRA on fine-tuning tasks and observe an uncommon skewness of weight norms across different layers. Utilizing this key observation, a surprisingly simple training strategy is discovered, which outperforms both LoRA and full parameter training in a wide range of settings with memory costs as low as LoRA. We name it Layerwise Importance Sampled AdamW (LISA), a promising alternative for LoRA, which applies the idea of importance sampling to different layers in LLMs and randomly freeze most middle layers during optimization. Experimental results show that with similar or less GPU memory consumption, LISA surpasses LoRA or even full parameter tuning in downstream fine-tuning tasks, where LISA consistently outperforms LoRA by over $11\%$-$37\%$ in terms of MT-Bench scores. On large models, specifically LLaMA-2-70B, LISA achieves on-par or better performance than LoRA on MT-Bench, GSM8K, and PubMedQA, demonstrating its effectiveness across different domains.

arxiv情報

著者 Rui Pan,Xiang Liu,Shizhe Diao,Renjie Pi,Jipeng Zhang,Chi Han,Tong Zhang
発行日 2024-03-26 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.OC パーマリンク