QLoRA: Efficient Finetuning of Quantized LLMs

要約

完全な 16 ビット微調整タスクのパフォーマンスを維持しながら、単一の 48GB GPU で 65B パラメーター モデルを微調整できるほどメモリ使用量を削減する、効率的な微調整アプローチである QLoRA を紹介します。
QLoRA は、凍結された 4 ビット量子化された事前トレーニング済み言語モデルを介して勾配を Low Rank Adapters~(LoRA) に逆伝播します。
Guanaco と名付けた当社の最高のモデル ファミリは、Vicuna ベンチマークでこれまでに公開されたすべてのモデルを上回り、ChatGPT のパフォーマンス レベルの 99.3% に達し、単一の GPU で 24 時間の微調整のみを必要とします。
QLoRA は、パフォーマンスを犠牲にすることなくメモリを節約するための多くの革新を導入しています。 (a) 正規分布の重みに理論的に最適な情報である新しいデータ型である 4 ビット NormalFloat (NF4) (b) 量子化によって平均メモリ フットプリントを削減する二重量子化
量子化定数、および (c) メモリ スパイクを管理するためのページ オプティマイザ。
QLoRA を使用して 1,000 を超えるモデルを微調整し、8 つの命令データセット、複数のモデル タイプ (LLaMA、T5)、および通常の微調整では実行不可能なモデル スケール (例: 33B や T5) にわたる命令フォローとチャットボットのパフォーマンスの詳細な分析を提供します。
65Bパラメータモデル)。
私たちの結果は、小規模で高品質なデータセットに対する QLoRA の微調整により、以前の SoTA よりも小規模なモデルを使用した場合でも、最先端の結果が得られることを示しています。
私たちは人間による評価と GPT-4 評価の両方に基づいてチャットボットのパフォーマンスの詳細な分析を提供し、GPT-4 評価が人間による評価に代わる安価で合理的な代替手段であることを示しています。
さらに、現在のチャットボット ベンチマークは、チャットボットのパフォーマンス レベルを正確に評価するには信頼できないことがわかりました。
レモンを選んだ分析は、ChatGPT と比較して Guanaco がどこで失敗するかを示しています。
4 ビット トレーニング用の CUDA カーネルを含むすべてのモデルとコードをリリースします。

要約(オリジナル)

We present QLoRA, an efficient finetuning approach that reduces memory usage enough to finetune a 65B parameter model on a single 48GB GPU while preserving full 16-bit finetuning task performance. QLoRA backpropagates gradients through a frozen, 4-bit quantized pretrained language model into Low Rank Adapters~(LoRA). Our best model family, which we name Guanaco, outperforms all previous openly released models on the Vicuna benchmark, reaching 99.3% of the performance level of ChatGPT while only requiring 24 hours of finetuning on a single GPU. QLoRA introduces a number of innovations to save memory without sacrificing performance: (a) 4-bit NormalFloat (NF4), a new data type that is information theoretically optimal for normally distributed weights (b) double quantization to reduce the average memory footprint by quantizing the quantization constants, and (c) paged optimziers to manage memory spikes. We use QLoRA to finetune more than 1,000 models, providing a detailed analysis of instruction following and chatbot performance across 8 instruction datasets, multiple model types (LLaMA, T5), and model scales that would be infeasible to run with regular finetuning (e.g. 33B and 65B parameter models). Our results show that QLoRA finetuning on a small high-quality dataset leads to state-of-the-art results, even when using smaller models than the previous SoTA. We provide a detailed analysis of chatbot performance based on both human and GPT-4 evaluations showing that GPT-4 evaluations are a cheap and reasonable alternative to human evaluation. Furthermore, we find that current chatbot benchmarks are not trustworthy to accurately evaluate the performance levels of chatbots. A lemon-picked analysis demonstrates where Guanaco fails compared to ChatGPT. We release all of our models and code, including CUDA kernels for 4-bit training.

arxiv情報

著者 Tim Dettmers,Artidoro Pagnoni,Ari Holtzman,Luke Zettlemoyer
発行日 2023-05-23 17:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク