要約
LLaMA2-70B モデルと LLaMA3/3.1/3.2-1B/3B/8B/405B モデルの両方には見られない、LLaMA3/3.1-70B モデルの量子化に関連した独特の動作が観察されました。
量子化は、大規模言語モデル (LLM) を効率的に展開するための重要な技術です。
W8A8 のトレーニング後の量子化がモデルの精度に及ぼす影響、特に最近リリースされた LLaMA3/3.1 モデル シリーズに対する影響については、依然として議論の余地があります。
このペーパーでは、次の 3 つの重要な質問を検討します。LLaMA3-70B モデル シリーズが量子化に対して独特に脆弱なのはなぜですか?
なぜそうなるのでしょうか?
そして、この問題はどのように解決できるのでしょうか?
私たちはオープン LLM リーダーボードに掲載されている複数の LLM を経験的に調査し、LLaMA3-70B モデル シリーズが W8A8 チャネルごとのトレーニング後の量子化で独特の精度低下動作を示すことを発見しました。
対照的に、LLaMA2、LLaMA3/3.1-8B、LLaMA3.2、Qwen、Mixtral、Mistral、Phi-3、Falcon などの他のモデル シリーズは、W8A8 で堅牢なパフォーマンスを示します。
劣化の原因がアクティベーションの広いダイナミック レンジにあるとするこれまでの主張に反して、今回の調査結果は、LLaMA3-70B の重量分布が脆弱性の背後にある主な要因であることを示しています。
Transformer ブロック全体の重量分布の明確な特性を注意深く分析することにより、ハードウェア/ソフトウェアのオーバーヘッドの異なるトレードオフを実現する 2 つのソリューションを提案します。
まず、レイヤの 3\% 未満がグループごとに細かい W8A8 量子化粒度を使用する混合戦略を提案します。
2 番目に、チャネルごとの量子化を全体的に維持しながら、重みとアクティベーションの間の量子化誤差のバランスをとる二重平滑化戦略を導入します。
実験結果は、両方の戦略が W8A8 量子化下で LLaMA3-70B モデル シリーズ全体の精度を効果的に維持し、FP16 対応物と同等のパフォーマンスを達成することを示しています。
要約(オリジナル)
We have observed a distinctive quantization-related behavior in the LLaMA3/3.1-70B models that is absent in both the LLaMA2-70B and LLaMA3/3.1/3.2-1B/3B/8B/405B models. Quantization is a crucial technique for deploying large language models (LLMs) efficiently. The impact of W8A8 post-training quantization on model accuracy, especially on the recently released LLaMA3/3.1 model series, remains contentious. In this paper, we explore three key questions: What makes the LLaMA3-70B model series uniquely vulnerable to quantization? Why is this the case? And how can the issue be addressed? We empirically investigate multiple LLMs featured on an open LLM leaderboard, discovering that the LLaMA3-70B model series have a unique accuracy degradation behavior with W8A8 per-channel post-training quantization. In contrast, other model series such as LLaMA2, LLaMA3/3.1-8B, LLaMA3.2, Qwen, Mixtral, Mistral, Phi-3, and Falcon demonstrate robust performance with W8A8. Contrary to previous assertions attributing degradation to the large dynamic range of activations, our findings indicate that the weight distribution of the LLaMA3-70B is the primary factor behind the vulnerability. By meticulously analyzing the distinct characteristics of weight distributions across Transformer blocks, we propose two solutions that make different tradeoffs in hardware/software overhead. First, we propose a mixed strategy where less than 3\% of the layers employ finer per-group W8A8 quantization granularity. Second, we introduce a bi-smoothing strategy that balances quantization errors between weights and activations while maintaining per-channel quantization throughout. Experimental results demonstrate that both strategies effectively preserve the accuracy of the entire LLaMA3-70B model series under W8A8 quantization, achieving performance on par with their FP16 counterparts.
arxiv情報
著者 | Minghai Qin |
発行日 | 2024-10-01 09:05:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google