Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models

要約

パラメータ効率の良い微調整 (PEFT) 手法は、主にメモリと計算オーバーヘッドを大幅に削減できる可能性があるため、事前トレーニングされた大規模言語モデル (LLM) を下流タスクに適応させるために非常に人気が高まっています。
ただし、ほとんどの PEFT アプローチに共通する制限は、すべての層にわたって均一なアーキテクチャ設計を適用することです。
この均一性には同一のトレーニング可能なモジュールが含まれており、各層の重要性の変化が無視されているため、最適化されていない微調整結果が得られます。
上記の制限を克服し、より良いパフォーマンスを得るために、固有のスパース性を最大限に活用し、効果的なレイヤーごとの重要度スコアリングを使用して完全なレイヤーの最も重要なサブセットを選択する新しいアプローチである重要度を意識したスパース チューニング (IST) を開発しました。
提案された IST は、層ごとに動作するさまざまな PEFT 手法と互換性のある多用途のプラグアンドプレイ技術です。
IST は、推定された重要度スコアを活用することで、PEFT モジュール内のこれらの選択されたレイヤーを動的に更新し、メモリ需要の削減につながります。
さらに、統一的な更新戦略に対する IST の利点を実証するために、収束の理論的証明と優れたパフォーマンスの経験的証拠を提供します。
さまざまな LLM、PEFT、およびダウンストリーム タスクに関する広範な実験により、提案手法の有効性が実証され、既存のレイヤーベースの PEFT 手法を強化する IST の能力が実証されました。
私たちのコードは https://github.com/Kaiseem/IST で入手できます。

要約(オリジナル)

Parameter-Efficient Fine-Tuning (PEFT) methods have gained significant popularity for adapting pre-trained Large Language Models (LLMs) to downstream tasks, primarily due to their potential to significantly reduce memory and computational overheads. However, a common limitation in most PEFT approaches is their application of a uniform architectural design across all layers. This uniformity involves identical trainable modules and ignores the varying importance of each layer, leading to sub-optimal fine-tuning results. To overcome the above limitation and obtain better performance, we develop a novel approach, Importance-aware Sparse Tuning (IST), to fully utilize the inherent sparsity and select the most important subset of full layers with effective layer-wise importance scoring. The proposed IST is a versatile and plug-and-play technique compatible with various PEFT methods that operate on a per-layer basis. By leveraging the estimated importance scores, IST dynamically updates these selected layers in PEFT modules, leading to reduced memory demands. We further provide theoretical proof of convergence and empirical evidence of superior performance to demonstrate the advantages of IST over uniform updating strategies. Extensive experiments on a range of LLMs, PEFTs, and downstream tasks substantiate the effectiveness of our proposed method, showcasing IST’s capacity to enhance existing layer-based PEFT methods. Our code is available at https://github.com/Kaiseem/IST.

arxiv情報

著者 Kai Yao,Penlei Gao,Lichun Li,Yuan Zhao,Xiaofeng Wang,Wei Wang,Jianke Zhu
発行日 2024-10-15 16:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク