要約
私たちは、まばらにアクティブ化された大規模言語モデル (LLM) をトレーニングするためのシンプルかつ効果的なアプローチである Q-Sparse を紹介します。
Q-Sparse は、LLM でのアクティベーションの完全なスパース性を可能にし、推論の大幅な効率向上をもたらします。
これは、トップ K のスパース化をアクティベーションに適用し、ストレートスルー推定器をトレーニングに適用することで実現されます。
また、バッチ トレーニングと推論用の Block Q-Sparse も紹介します。
この作業の主な結果は次のとおりです。(1) Q-Sparse は、推論時の効率が大幅に向上しながら、ベースライン LLM と同等の結果を達成できます。
(2) まばらに活性化された LLM に対する推論最適スケーリング則を提示します。
(3) Q-Sparse は、スクラッチからのトレーニング、既製 LLM の継続トレーニング、微調整などのさまざまな設定で効果的です。
(4) Q-Sparse は、完全精度 LLM と 1 ビット LLM (例: BitNet b1.58) の両方で機能します。
特に、BitNet b1.58 と Q-Sparse (MoE を搭載可能) の相乗効果は、将来の LLM のコストとエネルギー消費を含む効率に革命を起こすための基礎と明確な道筋を提供します。
要約(オリジナル)
We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. We also introduce Block Q-Sparse for batch training and inference. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.
arxiv情報
著者 | Hongyu Wang,Shuming Ma,Ruiping Wang,Furu Wei |
発行日 | 2024-07-24 14:57:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google