All-in-One Tuning and Structural Pruning for Domain-Specific LLMs

要約

ドメイン固有のアプリケーションを対象とした大規模言語モデル (LLM) の既存のプルーニング手法は、通常、2 段階のプロセスに従います。つまり、事前トレーニングされた汎用 LLM をプルーニングし、次に特定のドメインでプルーニングされた LLM を微調整します。
ただし、事前トレーニングされた重みから導出された枝刈りの決定は、重みが更新された場合でも、微調整中に変更されません。
したがって、このような枝刈りの決定と微調整された重みの組み合わせは最適ではない可能性があり、無視できないパフォーマンスの低下につながる可能性があります。
これらの制限に対処するために、私たちは ATP: オールインワンのチューニングと構造枝刈りを提案します。これは、統合された 1 段階の構造枝刈りおよび微調整アプローチであり、訓練可能な枝刈り意思決定ジェネレーターを介して、微調整フェーズ全体を通じて現在の最適な下部構造を動的に特定します。

さらに、ドメイン固有のアプリケーションで利用できるデータが限られているため、LLM を微調整するための低ランク適応 (LoRA) が一般的な手法になります。
ATP では、LoRA を意識したフォワード正則化とスパース正則化を導入し、学習した枝刈りの決定に対応するサブ構造を ATP プロセス後に直接削除できるようにします。
ATP は、法律および医療分野のタスクにおいて、最先端の 2 段階枝刈り手法よりも優れたパフォーマンスを発揮します。
より具体的には、ATP は、LLaMA2-7B モデルと LLaMA3-8B モデルの 40% パラメーターをプルーニングすると、密なモデルのパフォーマンスをそれぞれ最大 88% と 91% 回復します。

要約(オリジナル)

Existing pruning techniques for large language models (LLMs) targeting domain-specific applications typically follow a two-stage process: pruning the pretrained general-purpose LLMs and then fine-tuning the pruned LLMs on specific domains. However, the pruning decisions, derived from the pretrained weights, remain unchanged during fine-tuning, even if the weights have been updated. Therefore, such a combination of the pruning decisions and the finetuned weights may be suboptimal, leading to non-negligible performance degradation. To address these limitations, we propose ATP: All-in-One Tuning and Structural Pruning, a unified one-stage structural pruning and fine-tuning approach that dynamically identifies the current optimal substructure throughout the fine-tuning phase via a trainable pruning decision generator. Moreover, given the limited available data for domain-specific applications, Low-Rank Adaptation (LoRA) becomes a common technique to fine-tune the LLMs. In ATP, we introduce LoRA-aware forward and sparsity regularization to ensure that the substructures corresponding to the learned pruning decisions can be directly removed after the ATP process. ATP outperforms the state-of-the-art two-stage pruning methods on tasks in the legal and healthcare domains. More specifically, ATP recovers up to 88% and 91% performance of the dense model when pruning 40% parameters of LLaMA2-7B and LLaMA3-8B models, respectively.

arxiv情報

著者 Lei Lu,Zhepeng Wang,Runxue Bao,Mengbing Wang,Fangyi Li,Yawen Wu,Weiwen Jiang,Jie Xu,Yanzhi Wang,Shangqian Gao
発行日 2024-12-20 15:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク