OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning

要約

大規模言語モデル (LLM) の急速な進歩により、さまざまな自然言語処理タスクに革命が起こりました。
ただし、LLM のサイズが大きいため、トレーニングや微調整において大きな課題が生じます。
低ランク適応 (LoRA) などのパラメータ効率の高いアプローチが人気を集めていますが、フルランクの微調整と比較してパフォーマンスが低下することがよくあります。
この論文では、LLM の層ごとの外れ値分布にヒントを得た、新しいメモリ効率の高い微調整アプローチである Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore) を提案します。これは、事前にトレーニングされた層を動的にサンプリングして微調整します。
アダプターを追加する方法。
まず、ヘビーテール自己正則化理論 (HT-SR) のレンズを通して外れ値現象を解釈し、外れ値が多い層ほどヘビーテールになる傾向があり、その結果、より適切にトレーニングされる傾向があることを発見しました。
この発見に触発されて、OwLore は、外れ値がより多いレイヤーに高いサンプリング確率を戦略的に割り当て、事前トレーニングされた LLM に保存されている知識をより効果的に活用します。
微調整によるメモリ需要をさらに軽減するために、勾配低ランク射影をアプローチに統合します。これにより、各層が低ランクの方法で効率的にトレーニングされることが容易になります。
OwLore は、低ランクで最適なレイヤーごとのサンプリングの効率的な特性を組み込むことにより、LLM プルーニングにおけるメモリとパフォーマンスのトレードオフを大幅に改善します。
LLaMa2、LLaMa3、Mistral を含むさまざまなアーキテクチャにわたる広範な実験により、OwLore が完全な微調整を含むベースライン アプローチよりも常に優れたパフォーマンスを発揮することが実証されました。
具体的には、メモリ効率が向上しながら、Commonsense Reasoning ベンチマークで最大 1.1% の平均精度向上、MMLU で 3.0% の向上、MT-Bench での顕著な 10% 向上を達成します。
OwLore を使用すると、わずか 21 GB のメモリで LLaMa2-7B を微調整できます。

要約(オリジナル)

The rapid advancements in Large Language Models (LLMs) have revolutionized various natural language processing tasks. However, the substantial size of LLMs presents significant challenges in training or fine-tuning. While parameter-efficient approaches such as low-rank adaptation (LoRA) have gained popularity, they often compromise performance compared to full-rank fine-tuning. In this paper, we propose Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore), a new memory-efficient fine-tuning approach, inspired by the layerwise outlier distribution of LLMs, which dynamically samples pre-trained layers to fine-tune instead of adding additional adaptors. We first interpret the outlier phenomenon through the lens of Heavy-Tailed Self-Regularization theory (HT-SR), discovering that layers with more outliers tend to be more heavy-tailed and consequently better trained. Inspired by this finding, OwLore strategically assigns higher sampling probabilities to layers with more outliers to better leverage the knowledge stored in pre-trained LLMs. To further mitigate the memory demands of fine-tuning, we integrate gradient low-rank projection into our approach, which facilitates each layer to be efficiently trained in a low-rank manner. By incorporating the efficient characteristics of low-rank and optimal layerwise sampling, OwLore significantly improves the memory-performance trade-off in LLM pruning. Our extensive experiments across various architectures, including LLaMa2, LLaMa3, and Mistral, demonstrate that OwLore consistently outperforms baseline approaches, including full fine-tuning. Specifically, it achieves up to a 1.1% average accuracy gain on the Commonsense Reasoning benchmark, a 3.0% improvement on MMLU, and a notable 10% boost on MT-Bench, while being more memory efficient. OwLore allows us to fine-tune LLaMa2-7B with only 21GB of memory.

arxiv情報

著者 Pengxiang Li,Lu Yin,Xiaowei Gao,Shiwei Liu
発行日 2024-05-28 17:22:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク