ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

要約

活性化の希薄性とは、活性化出力の中に寄与度が低い要素がかなり存在することを指します。
ReLU 活性化関数を使用するモデルの一般的な特性として、活性化スパース性はモデル推論効率を高める有望なパラダイムであることが証明されています。
それにもかかわらず、ほとんどの大規模言語モデル (LLM) は、固有の活性化スパース性を持たない活性化関数を採用しています (GELU や Swish など)。
最近の取り組みでは、LLM が活性化スパース性と推論高速化を達成できるように、代替活性化関数として ReLU またはそのバリアントを導入することが検討されていますが、高いスパース性と同等のモデル パフォーマンスを同時に実現できるものはほとんどありません。
このペーパーでは、同等のパフォーマンスを維持しながら、LLM の活性化スパース性を高めるための、「ProSparse」という名前のシンプルで効果的なスパース化手法を紹介します。
具体的には、ProSparse は LLM の活性化関数を ReLU に置き換えた後、多段階のサインカーブに沿って滑らかに増加する係数を持つ漸進的スパース正則化を採用しています。
これにより、アクティベーションの分散性が強化され、アクティベーション分布の急激な変化が回避され、パフォーマンスの低下が軽減されます。
ProSparse を使用すると、LLaMA2-7B で 89.32%、LLaMA2-13B で 88.80%、エンドサイズ MiniCPM-1B で 87.89% という高いスパース性が得られ、元の Swish でアクティブ化されたバージョンと同等のパフォーマンスを達成します。
これらは、オープンソース LLaMA バージョンおよび競合するエンドサイズ モデルの中で最もまばらにアクティブ化されたモデルを示しており、ReluLLaMA-7B (66.98%) および ReluLLaMA-13B (71.56%) を大幅に上回っています。
私たちの推論加速実験では、活性化スパース性が高く、最大 4.52$\times$ の推論速度向上が得られる LLM の実用的な加速の可能性が大幅に実証されています。

要約(オリジナル)

Activation sparsity refers to the existence of considerable weakly-contributed elements among activation outputs. As a prevalent property of the models using the ReLU activation function, activation sparsity has been proven a promising paradigm to boost model inference efficiency. Nevertheless, most large language models (LLMs) adopt activation functions without intrinsic activation sparsity (e.g., GELU and Swish). Some recent efforts have explored introducing ReLU or its variants as the substitutive activation function to help LLMs achieve activation sparsity and inference acceleration, but few can simultaneously obtain high sparsity and comparable model performance. This paper introduces a simple and effective sparsification method named ‘ProSparse’ to push LLMs for higher activation sparsity while maintaining comparable performance. Specifically, after substituting the activation function of LLMs with ReLU, ProSparse adopts progressive sparsity regularization with a factor smoothly increasing along the multi-stage sine curves. This can enhance activation sparsity and mitigate performance degradation by avoiding radical shifts in activation distributions. With ProSparse, we obtain high sparsity of 89.32% for LLaMA2-7B, 88.80% for LLaMA2-13B, and 87.89% for end-size MiniCPM-1B, respectively, achieving comparable performance to their original Swish-activated versions. These present the most sparsely activated models among open-source LLaMA versions and competitive end-size models, considerably surpassing ReluLLaMA-7B (66.98%) and ReluLLaMA-13B (71.56%). Our inference acceleration experiments further demonstrate the significant practical acceleration potential of LLMs with higher activation sparsity, obtaining up to 4.52$\times$ inference speedup.

arxiv情報

著者 Chenyang Song,Xu Han,Zhengyan Zhang,Shengding Hu,Xiyu Shi,Kuai Li,Chen Chen,Zhiyuan Liu,Guangli Li,Tao Yang,Maosong Sun
発行日 2024-05-27 15:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク