A Survey on Model Compression for Large Language Models

要約

大規模言語モデル (LLM) は、自然言語処理タスクをうまく変換しました。
しかし、そのサイズが大きく、高い計算能力が必要なため、特にリソースが限られた環境での実用化には課題が生じています。
モデル圧縮は、これらの課題に対処するための重要な研究分野として浮上しています。
このペーパーでは、LLM のモデル圧縮技術の概要を説明します。
量子化、枝刈り、知識の蒸留などの手法を取り上げ、最近の進歩に焦点を当てます。
また、圧縮 LLM を評価するために重要なベンチマーク戦略と評価指標についても説明します。
この調査は、LLM の効率と現実世界への適用性を向上させながら、将来の進歩の基礎を築くことを目的として、研究者や実務家に貴重な洞察を提供します。

要約(オリジナル)

Large Language Models (LLMs) have transformed natural language processing tasks successfully. Yet, their large size and high computational needs pose challenges for practical use, especially in resource-limited settings. Model compression has emerged as a key research area to address these challenges. This paper presents a survey of model compression techniques for LLMs. We cover methods like quantization, pruning, and knowledge distillation, highlighting recent advancements. We also discuss benchmarking strategies and evaluation metrics crucial for assessing compressed LLMs. This survey offers valuable insights for researchers and practitioners, aiming to enhance efficiency and real-world applicability of LLMs while laying a foundation for future advancements.

arxiv情報

著者 Xunyu Zhu,Jian Li,Yong Liu,Can Ma,Weiping Wang
発行日 2024-07-30 13:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク