Pruning as a Domain-specific LLM Extractor

要約

大規模言語モデル (LLM) は、幅広い NLP タスクにわたって顕著な熟練度を示しています。
ただし、モデルのサイズが拡大すると、かなりの導入コストも発生します。
LLM のサイズを削減するためのモデル プルーニング手法を検討した取り組みはほとんどありませんが、主に一般的な重みやタスク固有の重みに重点を置いています。
これは、ドメイン固有の課題に適用される場合、ターゲット ドメインの特異性やさまざまなタスクの汎用性が欠如しているため、最適なパフォーマンスが得られないことにつながります。
この研究では、LLM でのドメイン固有の圧縮のための革新的な非構造化デュアル プルーニング手法である D-Pruner を導入しています。
言語能力やマルチタスク解決などの一般的な能力とドメイン固有の知識にとって重要な LLM 重みを特定することにより、圧縮されたドメイン固有のタスクに依存しない LLM を抽出します。
より具体的には、まず、オープンドメインのキャリブレーション データセットを利用して、重量の除去時に発生する誤差を定量化することで、一般的な重量の重要性を評価します。
次に、この一般的な重みの重要性を利用してトレーニング損失を調整し、特定の領域に適合する際の一般性を維持します。
さらに、ドメイン固有のキャリブレーション データセットで洗練されたトレーニング損失を使用して重みの重要性を効率的に近似することにより、一般性と特異性を強調した枝刈りモデルが得られます。
ヘルスケアおよび法律分野のさまざまなタスクにわたる包括的な実験により、ドメイン固有の圧縮における D-Pruner の有効性が示されています。
私たちのコードは https://github.com/psunlpgroup/D-Pruner で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have exhibited remarkable proficiency across a wide array of NLP tasks. However, the escalation in model size also engenders substantial deployment costs. While few efforts have explored model pruning techniques to reduce the size of LLMs, they mainly center on general or task-specific weights. This leads to suboptimal performance due to lacking specificity on the target domain or generality on different tasks when applied to domain-specific challenges. This work introduces an innovative unstructured dual-pruning methodology, D-Pruner, for domain-specific compression on LLM. It extracts a compressed, domain-specific, and task-agnostic LLM by identifying LLM weights that are pivotal for general capabilities, like linguistic capability and multi-task solving, and domain-specific knowledge. More specifically, we first assess general weight importance by quantifying the error incurred upon their removal with the help of an open-domain calibration dataset. Then, we utilize this general weight importance to refine the training loss, so that it preserves generality when fitting into a specific domain. Moreover, by efficiently approximating weight importance with the refined training loss on a domain-specific calibration dataset, we obtain a pruned model emphasizing generality and specificity. Our comprehensive experiments across various tasks in healthcare and legal domains show the effectiveness of D-Pruner in domain-specific compression. Our code is available at https://github.com/psunlpgroup/D-Pruner.

arxiv情報

著者 Nan Zhang,Yanchi Liu,Xujiang Zhao,Wei Cheng,Runxue Bao,Rui Zhang,Prasenjit Mitra,Haifeng Chen
発行日 2024-05-10 07:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク