要約
大規模な言語モデル(LLM)は自然言語処理を変革しましたが、実際の展開に大きな課題をもたらします。
これらのモデルには、かなりのコンピューティングリソースが必要であり、費用がかかり、頻繁に利用できない場合があります。
量子化などのモデル圧縮技術は、多くの場合、リソースの需要を軽減するために活用されますが、生成品質にマイナスの影響を与える可能性があります。
この研究では、これらの問題に対処するために、4ビットトレーニング後の量子化(PTQ)とQloraとの統合を調査します。
広範な実験を通じて、この統合は標準のPTQよりも優れていることを実証し、場合によってはLLMSでの16ビットのフルパラメーター微調整でさえ、異なる量子化アルゴリズムを使用して独自およびパブリックデータセット間で検証されています。
結果は、PTQ-Qlora統合の有効性を示しており、パフォーマンスを損なうことなく、リソース制約の環境で強力なLLMを展開するための実行可能なソリューションを提供します。
要約(オリジナル)
Large language models (LLMs) have transformed natural language processing but pose significant challenges for real-world deployment. These models necessitate considerable computing resources, which can be costly and frequently unavailable. Model compression techniques such as quantization are often leveraged to alleviate resource demand, but they may have a negative impact on the generation quality. In this study, we explore the integration of 4-bit Post-training Quantization (PTQ) with QLoRA to address these issues. We demonstrate through extensive experiments that this integration outperforms standard PTQ, and in some cases even 16-bit full-parameter fine-tuning on LLMs, validated across proprietary and public datasets with different quantization algorithms. The results demonstrate the efficacy of PTQ-QLoRA integration, offering a viable solution for deploying powerful LLMs in resource-constrained environments without compromising on performance.
arxiv情報
著者 | Xiliang Zhu,Elena Khasanova,Cheng Chen |
発行日 | 2025-02-14 14:56:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google