Token-Scaled Logit Distillation for Ternary Weight Generative Language Models

要約

生成言語モデル (GLM) は、テキストの生成、理解、推論などのタスクにおいて優れたパフォーマンスを示しています。
ただし、モデルのサイズが大きいため、実際の展開には課題が生じます。
この問題を解決するために、量子化対応トレーニング (QAT) の人気が高まっています。
ただし、生成モデルに対する現在の QAT 方法では、精度が著しく低下しています。
この問題に対処するために、GLM 向けに特別に設計された新しい知識蒸留方法を提案します。
トークンスケールロジット蒸留と呼ばれる私たちの方法は、過学習を防止し、教師モデルとグラウンドトゥルースから優れた学習を提供します。
この研究は、複雑さの低下が 1.0 未満であり、推論タスクの精度の損失がない、大規模な GLM の 3 値重み量子化対応トレーニングの最初の評価を示しています。

要約(オリジナル)

Generative Language Models (GLMs) have shown impressive performance in tasks such as text generation, understanding, and reasoning. However, the large model size poses challenges for practical deployment. To solve this problem, Quantization-Aware Training (QAT) has become increasingly popular. However, current QAT methods for generative models have resulted in a noticeable loss of accuracy. To counteract this issue, we propose a novel knowledge distillation method specifically designed for GLMs. Our method, called token-scaled logit distillation, prevents overfitting and provides superior learning from the teacher model and ground truth. This research marks the first evaluation of ternary weight quantization-aware training of large-scale GLMs with less than 1.0 degradation in perplexity and no loss of accuracy in a reasoning task.

arxiv情報

著者 Minsoo Kim,Sihwa Lee,Janghwan Lee,Sukjin Hong,Du-Seong Chang,Wonyong Sung,Jungwook Choi
発行日 2023-08-13 11:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク