要約
既存の低ランク適応 (LoRA) 手法は、スパース性を維持できないため、スパース大言語モデル (LLM) で課題に直面しています。
最近の研究では、追加のマスキング メカニズムで LoRA 技術を強化することにより、スパース性を維持する方法が導入されました。
これらの成功にもかかわらず、このようなアプローチはメモリと計算のオーバーヘッドの増加に悩まされており、LoRA メソッドの効率に影響を与えます。
この制限に対応して、スパース LLM を微調整する際にメモリ効率と計算効率の両方を達成するように設計された革新的な手法である LoRS を導入します。
スパース性の維持に伴う大量のメモリと計算の需要を軽減するために、私たちのアプローチには重みの再計算と計算によるグラフの再配置の戦略が組み込まれています。
さらに、アダプターの初期化を改善することで、LoRS の有効性も向上しました。
これらの革新により、既存の LoRA アプローチを上回るパフォーマンス レベルを達成しながら、微調整段階でのメモリと計算の消費量が大幅に削減されます。
要約(オリジナル)
Existing low-rank adaptation (LoRA) methods face challenges on sparse large language models (LLMs) due to the inability to maintain sparsity. Recent works introduced methods that maintain sparsity by augmenting LoRA techniques with additional masking mechanisms. Despite these successes, such approaches suffer from an increased memory and computation overhead, which affects efficiency of LoRA methods. In response to this limitation, we introduce LoRS, an innovative method designed to achieve both memory and computation efficiency when fine-tuning sparse LLMs. To mitigate the substantial memory and computation demands associated with preserving sparsity, our approach incorporates strategies of weight recompute and computational graph rearrangement. In addition, we also improve the effectiveness of LoRS through better adapter initialization. These innovations lead to a notable reduction in memory and computation consumption during the fine-tuning phase, all while achieving performance levels that outperform existing LoRA approaches.
arxiv情報
著者 | Yuxuan Hu,Jing Zhang,Xiaodong Chen,Zhe Zhao,Cuiping Li,Hong Chen |
発行日 | 2025-01-15 05:07:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google