要約
大規模な言語モデル(LLMS)は、例外的な推論能力を示しており、コモンセンスの推論や指導などの多様なタスク全体で強力な一般化を可能にします。
ただし、LLMSスケールのように、推論コストはますます禁止され、ライフサイクルで大幅に蓄積します。
このホワイトペーパーでは、LLMSのモデル圧縮がモデルサイズを縮小しながら、下流のタスクのパフォーマンスを改善することを検討します。
これを、パフォーマンスとデバイスのレイテンシの間でバランスをとるサブネットワークのパレート最適なセットを検索することにより、注意ヘッド、ニューロン、層などの構造コンポーネントを自動的にプルーネするニューラルアーキテクチャ検索問題として表現します。
事前に訓練されたモデルから抽出された最先端の構造的剪定アプローチや微調整された小規模なサブネットワークと比較して、私たちの方法は、11の多様なダウンストリームタスクで平均で最大9.85%の改善を達成し、最大22%の改善を達成しました。
デバイスのレイテンシの。
要約(オリジナル)
Large Language Models (LLMs) demonstrate exceptional reasoning abilities, enabling strong generalization across diverse tasks such as commonsense reasoning and instruction following. However, as LLMs scale, inference costs become increasingly prohibitive, accumulating significantly over their life cycle. In this paper we consider model compression for LLMs to reduce model size while improving downstream task performance. We phrase this as a neural architecture search problem that automatically prunes structural components, such as attention heads, neurons, and layers by searching for the Pareto-optimal set of sub-networks balancing between performance and on-device latency. Compared to state-of-the-art structural pruning approaches and fine-tuned smaller sub-networks extracted from the pre-trained model, our method achieves upto 9.85% improvement on average on 11 diverse downstream tasks, while achieving up to 22% improvement of on-device latency.
arxiv情報
著者 | Rhea Sanjay Sukthanker,Benedikt Staffler,Frank Hutter,Aaron Klein |
発行日 | 2025-02-05 12:50:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google