要約
LLM の現在の PEFT メソッドは、高品質で効率的なトレーニング、またはスケーラブルなサービスのいずれかを実現できますが、3 つすべてを同時に実現することはできません。
この制限に対処するために、スパース微調整を調査し、汎化能力の顕著な向上を観察しました。
この重要な洞察を利用して、最先端の微調整パフォーマンス、トレーニング効率、および推論のスケーラビリティを同時に達成する、LLM 向けの構造化スパース微調整 (S$^{2}$FT) メソッドのファミリーを提案します。
。
S$^{2}$FT は、「まばらに選択し、密に計算する」ことでこれを実現します。
各 Transformer ブロックの MHA モジュールと FFN モジュールのいくつかのヘッドとチャネルをそれぞれ選択します。
次に、LLM の結合構造の両側の重み行列を相互置換して、各層の選択されたコンポーネントを密な部分行列に接続します。
最後に、S$^{2}$FT はすべての部分行列に対してインプレース勾配更新を実行します。
理論分析と実証結果により、私たちの方法は最適化を簡素化しながら忘れを防止し、常識と算術推論の両方で SOTA パフォーマンスを実現し、LoRA と比較して平均 4.6% と 1.3% 向上し、指導後にさまざまなドメインに一般化するとフル FT を 11.5% 上回ります。
チューニング。
部分的なバックプロパゲーション アルゴリズムを使用することで、S$^{2}$FT はトレーニング メモリを最大 3$\times$ 節約し、完全な FT と比較してレイテンシを 1.5 ~ 2.7$\times$ 改善し、同時に LoRA よりも平均 10% の改善を実現します。
両方の指標。
さらに、S$^{2}$FT の重み更新をアダプターに分離することで、効果的な融合、高速な切り替え、および複数の微調整されたモデルを提供するための効率的な並列処理が可能になることを示します。
要約(オリジナル)
Current PEFT methods for LLMs can achieve either high quality, efficient training, or scalable serving, but not all three simultaneously. To address this limitation, we investigate sparse fine-tuning and observe a remarkable improvement in generalization ability. Utilizing this key insight, we propose a family of Structured Sparse Fine-Tuning (S$^{2}$FT) methods for LLMs, which concurrently achieve state-of-the-art fine-tuning performance, training efficiency, and inference scalability. S$^{2}$FT accomplishes this by ‘selecting sparsely and computing densely’. It selects a few heads and channels in the MHA and FFN modules for each Transformer block, respectively. Next, it co-permutes weight matrices on both sides of the coupled structures in LLMs to connect the selected components in each layer into a dense submatrix. Finally, S$^{2}$FT performs in-place gradient updates on all submatrices. Through theoretical analysis and empirical results, our method prevents forgetting while simplifying optimization, delivers SOTA performance on both commonsense and arithmetic reasoning with 4.6% and 1.3% average improvements compared to LoRA, and surpasses full FT by 11.5% when generalizing to various domains after instruction tuning. Using our partial backpropagation algorithm, S$^{2}$FT saves training memory up to 3$\times$ and improves latency by 1.5-2.7$\times$ compared to full FT, while delivering an average 10% improvement over LoRA on both metrics. We further demonstrate that the weight updates in S$^{2}$FT can be decoupled into adapters, enabling effective fusion, fast switch, and efficient parallelism for serving multiple fine-tuned models.
arxiv情報
著者 | Xinyu Yang,Jixuan Leng,Geyang Guo,Jiawei Zhao,Ryumei Nakada,Linjun Zhang,Huaxiu Yao,Beidi Chen |
発行日 | 2024-12-19 18:47:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google