要約
低ビット量子化を適用すると、サイズが大きいかトレーニング トークンが少ないモデルでは量子化による劣化 (QiD) が少なくなるのに対し、トレーニング トークンが大規模な小さいモデルでは影響を受けることが観察されるため、低ビット量子化が十分にトレーニングされていない大規模言語モデル (LLM) に有利であることがわかります。
重要な QiD。
この傾向についてより深い洞察を得るために、私たちは、制御された設定で、さまざまなサイズおよびさまざまなトレーニング レベル (トレーニング不足または完全にトレーニング済み) の 1,500 を超える量子化された LLM チェックポイントを研究し、QiD と、QiD の数などの要素との関係を理解するためのスケーリング則を導出します。
トレーニング トークン、モデル サイズ、ビット幅。
導出したスケーリング則により、QiD を使用して LLM のトレーニング レベルを測定し、さまざまなサイズの LLM を完全にトレーニングするために必要なトレーニング トークンの数を決定できるという新しい視点を提案します。
さらに、スケーリング則を使用して、100 兆のトークンでトレーニングされたさまざまなサイズの LLM の量子化パフォーマンスを予測します。
私たちの予測では、100 兆を超えるトークンでトレーニングされることが予想される将来のモデルの低ビット量子化パフォーマンスが望ましいものではない可能性があることが示されています。
これは、将来の低ビット量子化に潜在的な課題をもたらし、低ビット量子化の研究を評価する際にモデルのトレーニング レベルを認識する必要性を浮き彫りにしています。
この問題に関する今後の研究を促進するために、この作業で使用された 1500 以上の量子化チェックポイントをすべて https://huggingface.co/Xu-Ouyang でリリースします。
要約(オリジナル)
We reveal that low-bit quantization favors undertrained large language models (LLMs) by observing that models with larger sizes or fewer training tokens experience less quantization-induced degradation (QiD) when applying low-bit quantization, whereas smaller models with extensive training tokens suffer significant QiD. To gain deeper insights into this trend, we study over 1500 quantized LLM checkpoints of various sizes and at different training levels (undertrained or fully trained) in a controlled setting, deriving scaling laws for understanding the relationship between QiD and factors such as the number of training tokens, model size and bit width. With the derived scaling laws, we propose a novel perspective that we can use QiD to measure an LLM’s training levels and determine the number of training tokens required for fully training LLMs of various sizes. Moreover, we use the scaling laws to predict the quantization performance of different-sized LLMs trained with 100 trillion tokens. Our projection shows that the low-bit quantization performance of future models, which are expected to be trained with over 100 trillion tokens, may NOT be desirable. This poses a potential challenge for low-bit quantization in the future and highlights the need for awareness of a model’s training level when evaluating low-bit quantization research. To facilitate future research on this problem, we release all the 1500+ quantized checkpoints used in this work at https://huggingface.co/Xu-Ouyang.
arxiv情報
著者 | Xu Ouyang,Tao Ge,Thomas Hartvigsen,Zhisong Zhang,Haitao Mi,Dong Yu |
発行日 | 2024-11-26 18:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google