LLM-Pruner: On the Structural Pruning of Large Language Models

要約

大規模言語モデル (LLM) は、言語の理解と生成において顕著な能力を示しています。
ただし、このような優れた機能には通常、モデルのサイズが大きくなり、展開、推論、トレーニングの両方の段階で大きな課題が生じます。
LLM は汎用タスク ソルバーであるため、タスクに依存しない方法でその圧縮を検討します。これは、元の LLM のマルチタスク解決機能と言語生成機能を維持することを目的としています。
これを達成するための 1 つの課題は、LLM のトレーニング コーパスのサイズが膨大であるため、データ転送とトレーニング後のモデルの両方が過度の負担になっているということです。
したがって、タスクに依存しないこと、および元のトレーニング データセットへの依存を最小限に抑えることという 2 つの制約の範囲内で LLM の圧縮に取り組みます。
LLM-Pruner と呼ばれる私たちの方法は、勾配情報に基づいて重要でない結合構造を選択的に削除する構造枝刈りを採用し、LLM の機能の大部分を最大限に保存します。
この目的を達成するために、プルーニングされたモデルのパフォーマンスは、チューニング技術 LoRA を使用してわずか 3 時間で効率的に回復でき、必要なデータは 50K のみです。
LLaMA、Vicuna、ChatGLM を含む 3 つの LLM で LLM-Pruner を検証し、圧縮モデルがゼロショット分類と生成において依然として満足のいく機能を示すことを実証します。
コードはhttps://github.com/horseee/LLM-Prunerから入手できます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in both the deployment, inference, and training stages. With LLM being a general-purpose task solver, we explore its compression in a task-agnostic manner, which aims to preserve the multi-task solving and language generation ability of the original LLM. One challenge to achieving this is the enormous size of the training corpus of LLM, which makes both data transfer and model post-training over-burdensome. Thus, we tackle the compression of LLMs within the bound of two constraints: being task-agnostic and minimizing the reliance on the original training dataset. Our method, named LLM-Pruner, adopts structural pruning that selectively removes non-critical coupled structures based on gradient information, maximally preserving the majority of the LLM’s functionality. To this end, the performance of pruned models can be efficiently recovered through tuning techniques, LoRA, in merely 3 hours, requiring only 50K data. We validate the LLM-Pruner on three LLMs, including LLaMA, Vicuna, and ChatGLM, and demonstrate that the compressed models still exhibit satisfactory capabilities in zero-shot classification and generation. The code is available at: https://github.com/horseee/LLM-Pruner

arxiv情報

著者 Xinyin Ma,Gongfan Fang,Xinchao Wang
発行日 2023-09-28 03:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク