要約
低ランク適応(LORA)を使用した大規模な言語モデル(LLMS)の微調整は、特に限られた計算リソースを備えたシナリオで、下流のタスクに対して非常に効率的なアプローチとなっています。
ただし、量子化されたLLMSにLORA技術を適用すると、量子化された重みの表現精度が低下するため、独自の課題が発生します。
このホワイトペーパーでは、これらの課題を克服するために設計された単純な初期化戦略であるCLOQ(量子化されたLLMSのキャリブレーションされたLORA初期化)を紹介します。
私たちのアプローチは、初期化中のLORAコンポーネントを使用して、元のLLMとその量子化された対応物との間の層ごとの矛盾を最小化することに焦点を当てています。
小さなキャリブレーションデータセットを活用することにより、CLOQは事前に訓練されたLLMを定量化し、各層の最適なLORA成分を決定し、その後の微調整の強力な基盤を確保します。
この作業の重要な貢献は、これらの最適なLORAコンポーネントの正確で閉じた構造を可能にする新しい理論的結果です。
言語生成、算術推論、常識的推論などの複数のタスクにわたるCLOQの有効性を検証し、特に超低ビット幅で、量子化されたLLMSの既存のLORA微調整方法を常に上回ることを示しています。
要約(オリジナル)
Fine-tuning large language models (LLMs) using low-rank adaptation (LoRA) has become a highly efficient approach for downstream tasks, particularly in scenarios with limited computational resources. However, applying LoRA techniques to quantized LLMs poses unique challenges due to the reduced representational precision of quantized weights. In this paper, we introduce CLoQ (Calibrated LoRA initialization for Quantized LLMs), a simplistic initialization strategy designed to overcome these challenges. Our approach focuses on minimizing the layer-wise discrepancy between the original LLM and its quantized counterpart with LoRA components during initialization. By leveraging a small calibration dataset, CLoQ quantizes a pre-trained LLM and determines the optimal LoRA components for each layer, ensuring a strong foundation for subsequent fine-tuning. A key contribution of this work is a novel theoretical result that enables the accurate and closed-form construction of these optimal LoRA components. We validate the efficacy of CLoQ across multiple tasks such as language generation, arithmetic reasoning, and commonsense reasoning, demonstrating that it consistently outperforms existing LoRA fine-tuning methods for quantized LLMs, especially at ultra low-bit widths.
arxiv情報
著者 | Yanxia Deng,Aozhong Zhang,Naigang Wang,Selcuk Gurses,Zi Yang,Penghang Yin |
発行日 | 2025-01-30 16:48:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google