Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models

要約

大規模言語モデル(LLM)の急速な進歩は、言語理解と生成の能力を著しく向上させている。しかし、モデルのサイズが大きくなると、メモリサイズやトークン生成の推論レイテンシに影響するなど、ハードウェア的な課題が生じる。このような課題に対処するために、我々は、最近普及しているSwiGLUベースのLLMs刈り込みのための新しい手法である依存性を考慮した半構造化スパース(DaSS)を提案する。この手法では、構造依存性を重みの大きさに基づく非構造的刈り込みに組み込む。MLPに特化した刈り込み指標を導入し、重みの大きさとそれに対応するMLPの中間活性化ノルムを共同で考慮することで、各重みの重要度を評価する。DaSSは、非構造化刈り込みが提供する適応性と、依存関係ベースの構造化刈り込みに固有の構造的一貫性のバランスを取ることを容易にする。MistralとLLaMA2モデルファミリーを用いた実証的な評価により、DaSSはハードウェアに適したN:Mのスパースパターンを実現する上でSparseGPTとWandaの両方を上回るだけでなく、Wandaの計算効率も維持することが実証されています。

要約(オリジナル)

The rapid advancement in Large Language Models (LLMs) has markedly enhanced the capabilities of language understanding and generation. However, the substantial model size poses hardware challenges, affecting both memory size for serving and inference latency for token generation. To address those challenges, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel method for the recent prevalent SwiGLU-based LLMs pruning. Our approach incorporates structural dependency into the weight magnitude-based unstructured pruning. We introduce an MLP-specific pruning metric that evaluates the importance of each weight by jointly considering its magnitude and its corresponding MLP intermediate activation norms. DaSS facilitates a balance between the adaptability offered by unstructured pruning and the structural consistency inherent in dependency-based structured pruning. Empirical evaluations on Mistral and LLaMA2 model families demonstrate that DaSS not only outperforms both SparseGPT and Wanda in achieving hardware-friendly N:M sparsity patterns but also maintains the computational efficiency of Wanda.

arxiv情報

著者 Zhiyu Guo,Hidetaka Kamigaito,Taro Wanatnabe
発行日 2024-05-03 09:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク