L4Q: Parameter Efficient Quantization-Aware Training on Large Language Models via LoRA-wise LSQ

要約

ポストトレーニング量子化 (PTQ) および量子化対応トレーニング (QAT) 手法は、大規模言語モデル (LLM) に関連する高いメモリと計算コストを軽減するために人気が高まっています。
リソースに制約のあるシナリオでは、後者の方が精度が高い可能性があるにもかかわらず、トレーニング オーバーヘッドが削減された PTQ が QAT よりも好まれることがよくあります。
一方、低ランク適応 (LoRA) のようなパラメータ効率の良い微調整 (PEFT) 手法が導入され、最近の取り組みでは量子化を意識した PEFT 手法が検討されています。
ただし、これらのアプローチは、事前に量子化されたモデルの構成に依存しているため、一般性に欠ける可能性があります。
その有効性は、非線形量子化または混合精度の重みによって損なわれる可能性があり、特定の量子化パラメータの再トレーニングによって最適なパフォーマンスが妨げられる可能性があります。
これらの課題に対処するために、パラメータ効率の高い量子化対応トレーニングのアルゴリズムである L4Q を提案します。
L4Q は、汎用性の向上を目的として、LoRA に基づいて学習された LLM の量子化ステップ サイズを活用します。
L4Q の量子化と微調整の同時プロセスは高精度モデルに適用でき、優れた精度で線形量子化された重みを生成します。
教育データセットを使用して LLaMA および LLaMA2 モデル ファミリに対して行われた実験では、量子化モデルに PEFT を適用する場合と同等のトレーニング時間を維持しながら、言語理解と少数ショットのコンテキスト内学習における L4Q の機能が実証され、4 ビット未満の精度を達成しました。

要約(オリジナル)

Post-training quantization (PTQ) and quantization-aware training (QAT) methods are gaining popularity in mitigating the high memory and computational costs associated with Large Language Models (LLMs). In resource-constrained scenarios, PTQ, with its reduced training overhead, is often preferred over QAT, despite the latter’s potential for higher accuracy. Meanwhile, parameter-efficient fine-tuning (PEFT) methods like low-rank adaptation (LoRA) have been introduced, and recent efforts have explored quantization-aware PEFT techniques. However, these approaches may lack generality due to their reliance on the pre-quantized model’s configuration. Their effectiveness may be compromised by non-linearly quantized or mixed-precision weights, and the retraining of specific quantization parameters might impede optimal performance. To address these challenges, we propose L4Q, an algorithm for parameter-efficient quantization-aware training. L4Q leverages LoRA-wise learned quantization step size for LLMs, aiming to enhance generality. The simultaneous quantization-and-fine-tuning process of L4Q is applicable to high-precision models, yielding linearly quantized weights with superior accuracy. Our experiments, conducted on the LLaMA and LLaMA2 model families using an instructional dataset, showcase L4Q’s capabilities in language comprehension and few-shot in-context learning, achieving sub-4-bit precision while maintaining comparable training times to applying PEFT on a quantized model.

arxiv情報

著者 Hyesung Jeon,Yulhwa Kim,Jae-joon Kim
発行日 2024-02-07 14:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク