要約
パラメータ効率の高いチューニング (PET) は、フルパラメータ微調整 (FT) よりもはるかに少ないパラメータ (PET モジュール) を調整しながら、下流のタスクのために大規模言語モデル (LLM) からの十分な知識を刺激できるため、近年広く検討されています。
さらに、PET を使用して複数のタスクを実行する場合、さまざまなタスク固有の PET モジュールを凍結された LLM 上に構築でき、冗長な LLM 展開を回避できます。
PET は LLM のチューニングと展開のコストを大幅に削減しますが、その推論は依然として LLM の計算ボトルネックに悩まされています。
上記の問題に対処するために、圧縮 LLM に基づく効果的な PET フレームワーク「CPET」を提案します。
CPET では、主流の LLM 圧縮技術が PET のパフォーマンスに及ぼす影響を評価し、これらの圧縮技術によって生じた知識の損失を復元するための知識の継承と回復戦略を導入します。
私たちの実験結果は、CPET の復元戦略により、タスク固有の PET モジュールを圧縮 LLM と連携させると、PET モジュールを元のバージョンの圧縮 LLM と連携させるのと同等のパフォーマンスを達成でき、圧縮 LLM にバニラ PET 手法を直接適用するよりも優れたパフォーマンスを発揮できることを示しています。
LLM。
要約(オリジナル)
Parameter-efficient tuning (PET) has been widely explored in recent years because it tunes much fewer parameters (PET modules) than full-parameter fine-tuning (FT) while still stimulating sufficient knowledge from large language models (LLMs) for downstream tasks. Moreover, when PET is employed to serve multiple tasks, different task-specific PET modules can be built on a frozen LLM, avoiding redundant LLM deployments. Although PET significantly reduces the cost of tuning and deploying LLMs, its inference still suffers from the computational bottleneck of LLMs. To address the above issue, we propose an effective PET framework based on compressed LLMs, named ‘CPET’. In CPET, we evaluate the impact of mainstream LLM compression techniques on PET performance and then introduce knowledge inheritance and recovery strategies to restore the knowledge loss caused by these compression techniques. Our experimental results demonstrate that, owing to the restoring strategies of CPET, collaborating task-specific PET modules with a compressed LLM can achieve comparable performance to collaborating PET modules with the original version of the compressed LLM and outperform directly applying vanilla PET methods to the compressed LLM.
arxiv情報
著者 | Weilin Zhao,Yuxiang Huang,Xu Han,Zhiyuan Liu,Zhengyan Zhang,Maosong Sun |
発行日 | 2023-11-15 17:02:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google