SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって非常に効果的であることが証明されています。
ただし、パラメーターの数が多いため、実際の展開には大きな課題が生じます。
LLM のサイズと複雑さを軽減することを目的とした技術であるプルーニングは、ネットワークから冗長なコンポーネントを削除することで潜在的な解決策を提供します。
枝刈りの可能性があるにもかかわらず、既存の方法では、エンドツーエンドの LLM 推論の大幅な高速化を達成するのに苦労することがよくあります。
このペーパーでは、冗長な変圧器ブロックを排除することで LLM を合理化するように設計された新しいアプローチである SLEB を紹介します。
LLM は隣接するブロックの出力間の類似性が高く、ブロックレベルの冗長性を示すため、プルーニングの基本ユニットとしてトランス ブロックを選択します。
この選択により、LLM の処理速度を効果的に向上させることができます。
私たちの実験結果は、SLEB がこれらのモデルの言語機能を損なうことなく LLM 推論を高速化することに成功し、LLM の効率を最適化するための有望な手法であることを示しています。
コードはhttps://github.com/leapingjagg-dev/SLEBから入手できます。

要約(オリジナル)

Large language models (LLMs) have proven to be highly effective across various natural language processing tasks. However, their large number of parameters poses significant challenges for practical deployment. Pruning, a technique aimed at reducing the size and complexity of LLMs, offers a potential solution by removing redundant components from the network. Despite the promise of pruning, existing methods often struggle to achieve substantial end-to-end LLM inference speedup. In this paper, we introduce SLEB, a novel approach designed to streamline LLMs by eliminating redundant transformer blocks. We choose the transformer block as the fundamental unit for pruning, because LLMs exhibit block-level redundancy with high similarity between the outputs of neighboring blocks. This choice allows us to effectively enhance the processing speed of LLMs. Our experimental results demonstrate that SLEB successfully accelerates LLM inference without compromising the linguistic capabilities of these models, making it a promising technique for optimizing the efficiency of LLMs. The code is available at: https://github.com/leapingjagg-dev/SLEB

arxiv情報

著者 Jiwon Song,Kyungseok Oh,Taesu Kim,Hyungjun Kim,Yulhwa Kim,Jae-Joon Kim
発行日 2024-02-14 09:01:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク