Efficient Pruning of Large Language Model with Adaptive Estimation Fusion

要約

大規模言語モデル (LLM) は、多くの生成的なダウンストリーム タスクにとって重要になっており、リソースに制約のあるデバイスに LLM を効率的に展開するという避けられない傾向と大きな課題につながっています。
構造化枝刈りは、この課題に対処するために広く使用されている方法です。
ただし、複数のデコーダ層の複雑な構造を扱う場合、一般的な方法では枝刈りに共通の推定アプローチが使用されることがよくあります。
これらのアプローチは、特定の下流タスクの精度の低下につながります。
この論文では、各下部構造の重要性を適応的にモデル化する、シンプルかつ効率的な方法を紹介します。
同時に、複雑な多層構造からの結果に基づいて、粗粒度の推定と細粒度の推定を適応的に融合することができます。
当社の設計のあらゆる側面は、エンドツーエンドのプルーニング フレームワークにシームレスに統合されます。
私たちの実験結果は、主流のデータセットでの最先端の手法と比較して、LLaMa-7B、Vicuna-7B、Baichuan-7B、および Bloom で平均 1.1%、1.02%、2.0%、1.2% の精度の向上を示しています。
それぞれ-7b1。

要約(オリジナル)

Large language models (LLMs) have become crucial for many generative downstream tasks, leading to an inevitable trend and significant challenge to deploy them efficiently on resource-constrained devices. Structured pruning is a widely used method to address this challenge. However, when dealing with the complex structure of the multiple decoder layers, general methods often employ common estimation approaches for pruning. These approaches lead to a decline in accuracy for specific downstream tasks. In this paper, we introduce a simple yet efficient method that adaptively models the importance of each substructure. Meanwhile, it can adaptively fuse coarse-grained and finegrained estimations based on the results from complex and multilayer structures. All aspects of our design seamlessly integrate into the endto-end pruning framework. Our experimental results, compared with state-of-the-art methods on mainstream datasets, demonstrate average accuracy improvements of 1.1%, 1.02%, 2.0%, and 1.2% for LLaMa-7B,Vicuna-7B, Baichuan-7B, and Bloom-7b1, respectively.

arxiv情報

著者 Jun Liu,Chao Wu,Changdi Yang,Hao Tang,Zhenglun Kong,Geng Yuan,Wei Niu,Dong Huang,Yanzhi Wang
発行日 2024-05-15 02:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク