Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs

要約

ポストトレーニング量子化 (PTQ) は、パフォーマンスの多少の低下を犠牲にしてメモリ使用量を削減することで、より高速な操作とアクセスしやすいハードウェアとの互換性を可能にすることで、大規模言語モデル (LLM) の効率を高めます。
PTQ におけるキャリブレーション セットの役割、特にさまざまな注目すべきオープンソース LLM の隠れたアクティベーションに対するその影響を調査します。
キャリブレーション セットは、アクティベーションの大きさを評価し、量子化範囲を歪め、パフォーマンスに悪影響を与える可能性がある外れ値を特定するために重要です。
私たちの分析により、モデル間の量子化の有効性が顕著に異なることが明らかになりました。
量子化に関する文献の多くが基づいている古い OPT モデルでは、パフォーマンスが大幅に低下し、キャリブレーション セットが変化すると外れ値の影響を受けやすくなります。
対照的に、Llama-2 7B、Llama-3 8B、Command-R 35B、Mistral 7B などの新しいモデルは強力な堅牢性を示し、Mistral 7B は異常値に対するほぼ耐性と安定したアクティベーションを示します。
これらの調査結果は、PTQ 戦略の変更が必要である可能性があることを示唆しています。
事前トレーニング方法の進歩により外れ値の関連性が低下するため、現在の量子化に関する文献の基本を再評価する必要性が生じています。
最先端の LLM の進化する特性に合わせて、外れ値の保存に主に焦点を当てるのではなく、推論速度の最適化に重点を置く必要があります。

要約(オリジナル)

Post-Training Quantization (PTQ) enhances the efficiency of Large Language Models (LLMs) by enabling faster operation and compatibility with more accessible hardware through reduced memory usage, at the cost of small performance drops. We explore the role of calibration sets in PTQ, specifically their effect on hidden activations in various notable open-source LLMs. Calibration sets are crucial for evaluating activation magnitudes and identifying outliers, which can distort the quantization range and negatively impact performance. Our analysis reveals a marked contrast in quantization effectiveness across models. The older OPT model, which much of the quantization literature is based on, shows significant performance deterioration and high susceptibility to outliers with varying calibration sets. In contrast, newer models like Llama-2 7B, Llama-3 8B, Command-R 35B, and Mistral 7B demonstrate strong robustness, with Mistral 7B showing near-immunity to outliers and stable activations. These findings suggest a shift in PTQ strategies might be needed. As advancements in pre-training methods reduce the relevance of outliers, there is an emerging need to reassess the fundamentals of current quantization literature. The emphasis should pivot towards optimizing inference speed, rather than primarily focusing on outlier preservation, to align with the evolving characteristics of state-of-the-art LLMs.

arxiv情報

著者 Davide Paglieri,Saurabh Dash,Tim Rocktäschel,Jack Parker-Holder
発行日 2024-05-31 14:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク